Projet collectif de fin de semestre pour le cours d’Aurélien Berra, “Humanités numériques 3”, à l’Université Paris Nanterre, décembre 2020 – Publication en ligne.

Si Aurélien Berra ne fait pas formellement partie de la liste des auteurs du présent document, ce travail n’aurait pas été possible sans lui : nous souhaitons lui adresser tous nos remerciements, non seulement pour ses cours qui nous ont initiés aux outils ici manipulés, pour son énoncé stimulant posant le problème auquel nous nous confrontons ici, mais encore pour sa disponibilité ainsi que ses nombreuses remarques, ressources et indications, prodiguées au cours de notre travail et suite à ses relectures très attentives. Nous avons tenté d’en tenir compte et d’intégrer ses apports autant que possible, si bien que ce travail est aussi un peu le sien.

Analyse de nomenclatures des corpus de littérature antique (TLG et PHI)

Présentation

Le développement des humanités numériques s’est accompagné de l’émergence de plusieurs innovations renouvelant les pratiques des chercheurs en humanités classiques. La création de bibliothèques interactives en fait partie, à l’instar du Thesaurus Linguae Graecae (TLG) et de la Bibliothèque Numérique Perseus. Les sites offrant l’accès à ces deux bibliothèques disposent d’un grand nombre de fonctionnalités, mobilisables sur un canon très large d’auteurs et d’œuvres – accessibles gratuitement pour Perseus, et sur abonnement pour le TLG. L’étude d’œuvres y est ainsi grandement facilité par la mise à disposition de plusieurs dictionnaires, de propositions d’analyse grammaticale, de mises en parallèle entre les œuvres sélectionnées, et même d’analyses statistiques.

Celui qui a déjà parcouru les rayons virtuels de ces bibliothèques – et plus encore celui qui aura tenté d’exploiter informatiquement ces données – aura peut-être relevé que chaque auteur, et chaque œuvre, y possède un identifiant unique. Toute base de données informatique appelle effectivement à doter chaque élément qui la composent d’un identifiant pour en permettre une manipulation aisée – l’identifiant, généralement suite de nombres, confère en effet à l’élément qu’il désigne une stabilité qui en facilite l’accès : quand bien même le contenu ou le titre de cet élément changerait, l’identifiant, lui, demeure.

Deux classifications servent de référence fréquente pour désigner les œuvres classiques et leurs auteurs : il s’agit des identifiants attribués par le TLG, pour les textes grecs, et par le Packard Humanities Institute (PHI) pour les textes latins. Dans les deux cas, l’identifiant est numérique et est composé de quatre chiffres : Homère, par exemple, est assigné à l’identifiant 0012 dans le TLG. L’identifiant d’une œuvre est alors composé de l’identifiant de son auteur suivi d’un point puis de plusieurs autres chiffres pour caractériser l’œuvre en question.

Pour autant, la documentation portant sur la constitution de ces identifiants est lacunaire, et un rapide coup d’œil aux identifiants du TLG ne permet pas d’en discerner la logique d’attribution : la numérotation ne à première vue être ni alphabétique, ni chrnologique, ou en tout cas pas de manière univoque, et on remarque que les identifiants sont discontinus, certains manquants entre deux valeurs : on a bien Hésiode correspondant au 0020 et Nicandre au 0022, mais en revanche aucun auteur au numéro 21. On s’interroge alors sur la logique interne de ces identifiants – à moins qu’ils ne soient qu’arbitraires…

Nous nous proposons donc de mener l’enquête. Au départ informatique, cette enquête est aussi historique : élucider la ou les logiques auxquelles ces identifiants pourraient obéir, c’est aussi informer les choix qui ont été faits lors de la constitution de ces bases de données. Une analyse informatisée, paraît particulièrement indiquée pour tenter de résoudre l’énigme qui se présente à nous, les identifiants en question étant numériques et se comptant par centaines pour la codification du PHI, par milliers pour celle du TLG. Les données à étudier présentent l’avantage d’être aisément accessibles – davantage que des matériaux d’archives ou le recueil de témoignages – et nous tenterons de croiser les identifiants non seulement avec les noms des auteurs concernés, mais aussi avec leurs dates, le ou les genres littéraires auxquels ils se rattachent, ainsi que leur lieu d’exercice.

Ainsi cette étude, que nous conduisons avec le langage R, langage libre d’analyse de données, apporte au praticien des humanités numériques à l’esprit curieux, et à la connaissance historique, un éclairage utile et une méthode originale. Nous procéderons tout d’abord à une mise en forme systématique des données que nous sommes parvenus à récupérer, pour pouvoir dans une seconde partie les soumettre à analyses graphiques, d’où nous tirerons plusieurs résultats synthétisés en conclusion.

Notez au passage que notre étude se concentre sur les identifiants des auteurs, laissant de côté la logique de numérotation des œuvres : à première vue, chaque auteur a une numérotation propre à ses œuvres (001, 002…), bien que celle-ci pourrait suivre des logiques transversales, par exemple une classification chronologique par date d’écriture. C’est tout ce que nous en dirons, car il nous paraît prioritaire dans cette investigation de commencer par nous focaliser sur les auteurs ; après tout, c’est leur identifiant est le premier apparaissant sur une œuvre (0012.001, 0012.002…). Analyser plus finement la logique de numérotation des œuvres appellerait à une étude spécifique qui demanderait de formater différemment les données à notre disposition : ceci pourrait faire l’objet d’un travail ultérieur.

Démarche adoptée

Avant de nous atteler aux formatages et à l’exploration proprement dits, revenons un instant sur quelques grands principes méthodologiques qui guident notre investigation. Nous cherchons ici à expliquer une variable, à savoir un identifiant, par d’autres variables potentielles, comme le nom, la date, le lieu ou le genre littéraire.

Rappelons, pour clarifier les fondements de la terminologie que nous employons, qu’une “variable” est une caractéristique d’un élément considéré. Dans un tableau, les “variables” correspondent généralement aux colonnes, et les éléments considérés aux lignes. On peut aussi parler, pour les lignes, d’“observations”, d’“entrées” ou d’“individus”. Pour chaque individu, chaque variable prend une valeur ou une modalité particulière, c’est le “contenu” de la variable. Les modalités sont ainsi l’ensemble des valeurs que peuvent prendre une variable – plus précisément, on parle de “modalité” lorsque le nombre de valeurs possibles est fini. Par exemple, l’identifiant est une variable qui a une forme particulière, à savoir un numéro de 1 à 4 chiffres, et pour l’individu dénommé “Platon”, la variable “identifiant” prend la valeur “0059” – la variable “genre littéraire” quant à elle, dont la liste des modalités est définie à l’avance, prend pour “Platon” la modalité “philosophie”.

Schématiquement, tout ceci se présente sous cette forme :

. Variable 1 Variable 2
Individu 1 Valeur 1 Modalité A
Individu 2 Valeur 2 Modalité A
Individu 3 Valeur 3 Modalité B

Pour observer ce que nous obtenons dans notre cas, le lecteur peut se référer à la section “Données finales”.

Considérons un instant les types des variables qui sont en jeu, avant de présenter les étapes qui vont nous être nécessaires dans notre étude.

Types de variables

Pour y voir plus clair, distinguons la “nature” des variables qui sont en jeu. On peut différencier :

  • Les variables “continues” : il s’agit de variables numériques, sur lesquelles on peut effectuer des opérations mathématiques (calcul de moyenne, minimum, maximum…). Il s’agit par exemple des identifiants sous la forme de numéros ou de dates. (Notons au passage que les catégories que nous proposons ne correspondent pas scrupuleusement à des catégories statistiques consacrées : des puristes pourraient ici arguer notamment que lorsqu’il s’agit de nombres entiers, comme les identifiants ou les dates sous la forme d’années, on est en terminologie mathématique face à des variables qu’il faudrait dire discrètes plutôt que continues. Qu’importe, cela paraît de peu d’importance pour ce qui nous préoccupe ici.)

  • Les variables “catégorielles” : il s’agit de “catégories” dans lesquelles on range les individus, des sortes d’étiquettes, en nombre limité, qu’on applique chacune à plusieurs individus. Dans notre cas, elles seront sous la forme de chaînes de caractères. Il s’agit par exemple des genres littéraires ou des lieux. Les initiales des noms peuvent également en relever.

  • Les variables “singulières” : il s’agit de variables dont le contenu est singulier, et généralement unique, à chaque individu considéré. Typiquement, c’est le cas des noms des auteurs. La distinction avec les variables continues repose sur le fait qu’il s’agit de chaînes de caractères qu’il est plus difficile de transcrire en chiffres, et donc dont la manipulation peut différer.

Les variables continues présentent l’avantage de correspondre à une échelle déterminée : on peut facilement dire que 3 est supérieur à 1, ou que -500 est antérieur à -400. Néanmoins, les variables que nous avons appelées catégorielles ou singulières, peuvent également être “ordonnées”, selon un critère déterminé : pour les noms en particulier, l’ordre alphabétique paraît être un mode d’arrangement qui fait sens. Pour les lieux, on pourrait les ranger par catégorie emboîtée (ville, région, pays), ou encore selon un ordre particulier (par exemple, d’ouest en est). Ces variables “ordonnées” se rapprochent alors un peu des variables continues, car, comme ces dernières, on peut désormais dire si telle modalité vient après ou avant telle autre modalité dans l’ordre qu’on a choisi : “Aristote” vient avant “Platon” pour la variable “nom” ordonnée par ordre alphabétique.

Notons que nous avons cité ici les variables les plus évidentes – et les plus accessibles – qui semblent à première vue porter le plus de sens pour la question qui nous préoccupe. Néanmoins, il se pourrait que nous laissions alors de côté d’autres considérations, comme par exemple des dates particulières, de découverte des manuscrits par exemple ; ou encore, nous pourrions être trop peu précis en ce qui concerne le nom des auteurs : peut-être ceux-ci ont-il évolué dans le temps et dans l’espace, selon les langues et les appellations, ou bien peut-être faudrait-il établir des distinctions selon ce qui pourrait correspondre à des éléments comme le nom et le prénom, en constituant alors des sous-variables plus précises.

Saisir les corrélations

Pour comprendre les relations entre ces variables, notamment pour déterminer si elles sont corrélées ou non, et si oui, de quelle manière, nous allons mobiliser des analyses graphiques : plutôt que des analyses mathématiques à l’aveuglette, les graphiques paraissent offrir l’approche la plus flexible et compréhensive. Nous pourrons alors projeter les variables sur les axes, d’un plan habituel en deux dimensions, et éventuellement user de couleurs pour faire apparaître à travers elles une troisième dimension.

Il faut noter que nous devrons a priori toujours projeter la variable à expliquer, c’est-à-dire celle des identifiants (à moins que nous ne cherchions à distinguer des corrélations intermédiaires qui sont la cause première des relations observées – par exemple si le lieu est corrélé avec la date, on pourrait, en ne regardant que les identifiants et les lieux, penser qu’il y a corrélation, quand la véritable corrélation serait en réalité entre les identifiants et les dates).

A priori, les variables continues se prêtent bien à la projection sur un axe orienté, car elles correspondent à une échelle. Cela est vrai aussi, quoique dans une moindre mesure, pour les variables ordonnées, dont l’ordre peut apparaître au fil de l’axe. Les variables catégorielles (ordonnées ou non) quant à elles se prêtent bien à l’utilisation de couleurs, du fait qu’elles devraient être relativement peu nombreuses, et donc distinguables grâce à des couleurs différentes. Lorsqu’elles sont ordonnées (voire, dans un autre style, quand on a à faire à des variables continues), on pourrait de plus faire appel à un dégradé – par exemple, en attribuant des couleurs plus claires aux valeurs “inférieures”, et des couleurs plus sombres aux valeurs “supérieures”.

L’ajout d’une troisième dimension par la couleur pourra nous aider à distinguer une évolution dans le cas où la classification changerait de logique en cours de route, ou obéirait en fait à plusieurs logiques : par exemple, si les auteurs étaient regroupés par lieu, puis, au sein de chaque groupe constitué pour un lieu donné, qu’ils étaient classés par ordre alphabétique. On verrait ainsi, sur nos graphiques, soit des séquences d’éléments qui se suivent dans l’ordre alphabétique, chacune d’une couleur particulière (si on projette le nom sur un axe, et qu’on colore les lieux), soit des points regroupés ensemble par lieu, avec sur chacun un dégradé de couleurs correspondant à l’ordre alphabétique (si on projette les lieux sur un axe, et qu’on colore les initiales).

Étapes nécessaires

Nous devrons constituer nos données, en récupérant les informations appropriées (correspondance entre identifiants et noms des auteurs, dates des auteurs, genre littéraire…), puis faire en sorte de les traiter. Successivement, nous devrons :

  1. Récupérer des données (voir Chargement des données), depuis internet notamment, à partir de bases de données déjà constituées ;

  2. Formater ces données pour les rendre exploitables (voir 1. Formatage des données), notamment en s’assurant de l’homogénéité des catégories et en transformant certaines variables textuelles en variables numériques ;

  3. Réaliser des analyses à partir des données formatées (voir 2. Analyses graphiques), c’est-à-dire, ici, essentiellement des graphiques.

Préparatifs

Configuration générale

Chargement des bibliothèques externes.

pacman::p_load(
  here, jsonlite, knitr, skimr, tidyverse
)

Configuration du rendu.

# Disable globally some messages in the final rendering,
# such as minor warnings from external functions.
opts_chunk$set(
  message = FALSE,
  warning = FALSE
)

default_cols_nb <- 12
#' Print a vector as a kable.
#' Allows to fix auto-wrapped printed vector.
#' @param data Vector of data to print.
#' @param cols_nb Integer. Desired number of columns.
#' @return NULL Prints the table as a knitr::kable.
print_vector <- function(data, cols_nb = default_cols_nb) {
  tibble(val = data) %>%
    rowid_to_column() %>%
    mutate(
      group = rowid %% cols_nb,
      new_rowid = ceiling(rowid / cols_nb)
    ) %>%
    select(-rowid) %>%
    pivot_wider(names_from = group, values_from = val) %>%
    select(-new_rowid) %>%
    mutate_all(
      ~ replace_na(., "")
    ) %>% 
    knitr::kable(
      col.names = c()
    )
}

Déclaration de variables globales (qu’on pourrait aussi appeler des constantes).

# Input directory.
input_dir <- here("projet_final/data/")
# On Windows, the 'here' package deletes the final "/" although we need it, therefore we must add it again.
if (.Platform$OS.type == "windows") input_dir <- paste0(input_dir, "/")

# Variants for NA in the retrieved data.
na_variants <- c(
  "", "?", "\n", "...",
  "NA", "n.a.", "n",
  "none", "None", "one",
  "unknown", "Unknown",
  "Various", "Varia",
  "Uncertain"
)

# Note that we will declare colors in relevant section to present them,
# which is in the middle of the second section.

Nous déclarons ci-dessus une fois pour toutes les différentes chaînes de caractères pouvant être utilisées pour indiquer des données manquantes, dans les différentes variables des données originales, repérées au fil de nos explorations. Elles seront remplacées en une fois au début du formatage des données.

Chargement des données

La plupart des données que nous mobilisons sont récupérées depuis un tableur en ligne du Projet Perseus. Le tableur contient des entrées d’œuvres antiques, ainsi que des informations sur leurs auteurs qui pourraient nous être utiles, en particulier : nom, lieu, dates d’activité, de “début” et de “fin”. Il contient également les identifiants qu’on cherche à expliquer, à savoir les identifiants TLG et PHI.

phi_works_raw_df <- read_csv(paste0(input_dir, "latin_authors_by-perseus.csv"))
tlg_works_raw_df <- read_csv(paste0(input_dir, "greek_authors_by-perseus.csv"))

En complément, nous utiliserons la liste des genres récupérée depuis les fichiers du CLTK (Classical Language ToolKit, la boîte à outils des langues classiques). Il ne s’agit ici que des auteurs grecs – il aurait été possible de récupérer l’épithète de genre sur les noms des auteurs TLG tels qu’ils sont formatés dans la liste du Projet Perseus, mais autant profiter de ce formatage déjà établi.

tlg_epithets_raw_df <-
  read_json(paste0(input_dir, "greek_authors-epithets_by-cltk.json")) %>%
  enframe("genre", "code")

Notons que nous conserverons, dans l’environnement de développement, les tableaux avec les données d’origine chargés ici : cela nous permettra en effet, au cours du développement de nos analyses, d’éventuellement aller vérifier quelles étaient les données de base correspondantes.

1. Formatage des données

Variables recherchées

Pour consulter les données finales obtenues, rendez-vous à la fin de la section !

Pour rendre les données récupérées exploitables, nous devons en formaliser la structure en les “encodant” de sorte qu’elles correspondent aux analyses que nous souhaitons mener.

En fin de compte, les variables que nous obtiendrons seront les suivantes :

Nom Description Exemple Nature Type Source d’origine
code identifiant 0059 nombre continue Perseus
init initiale* P caractère catégorielle
ordonnée
Première lettre
de “nom”
name nom* Plato Phil. caractères singulière
ordonnée
Perseus
genre genre littéraire
(TLG uniquement)
Philosophici/-ae caractères catégorielle CLTK
place lieu Greece caractères catégorielle Perseus
date date -500 nombre continue** Copie de
“date d’activité”
date_active date d’activité,
ou siècle
-500 nombre continue** Perseus
date_begin date “de départ”,
ou de naissance
-427 nombre continue Perseus
date_end date “de fin”,
ou de mort
-348 nombre continue Perseus
Tableau des variables utilisées
(*) Nous serons par la suite amenés, au cours de nos analyses, à modifier les noms, et par conséquent les initiales, qui nous servent de référence. Nous travaillerons alors sur une copie du tableau d’origine.
(**) Le caractère continu de la “date d’activité” est ambigu : il s’agit en effet le plus souvent de siècles, si bien qu’on pourrait considérer qu’il s’agit d’une variable catégorielle ordonnée. Néanmoins, par commodité, nous la traiterons comme une variable proprement numérique, c’est-à-dire continue.

Pour obtenir ces données finales, exploitables statistiquement, nous avons dû faire plusieurs choix.

  • Pour les dates, nous conservons, pour chacune sus-mentionnée, une variable équivalente sous la forme de chaîne de caractères, plus détaillée et plus fidèle aux données de départ, mais plus difficilement exploitable statistiquement par des graphiques.

    Ces équivalents-caractères ressemblent à ceci :

    • 200bce?” correspond, avec une incertitude (?) à 200 avant notre ère (bce pour Before Common Era), et est traduit sous forme numérique en -200 ;

    • 100ce-200ce” désigne un intervalle compris entre 100 et 200 de notre ère (ce pour Common Era). Nous prenons alors la moyenne des deux extrémités, ce que nous donne 150.

  • En ce qui concerne le “siècle”, le fait de prendre la moyenne lorsqu’on est face à un intervalle brise l’homogénéité de la mesure. “100ce-200ce” correspond à “entre le premier et le second siècle”, néanmoins “150” ne correspond plus à un siècle, mais plutôt à un demi-siècle. De plus, nous avons un problème au tournant de l’ère : “100bce” correspond au premier siècle avant (années -100 à -1) et “100ce” au premier siècle après (années 1 à 100) : l’échelle des siècles passe directement du -1 au 1, sans 0 intermédiaire, alors que la considérer comme un nombre “normal” la fait passer par un 0.

    Ce dernier souci étant de peu d’importance et non évident à corriger, nous signalons simplement que les dates entre -100 et 100, quand nous prendrons les siècles (date_active ou date), seront étalées deux fois plus que relativement à des données correctement homogènes.

  • Pour les lieux, nous n’avons conservé que le pays, pour gagner en généralité et avoir des catégories plus amples – les données de départ comportaient également parfois la région et/ou la ville.

    Lorsque plusieurs lieux étaient indiqués, nous n’avons arbitrairement conservé que le dernier de la liste. Il aurait été possible, mais alors plus fastidieux, de récupérer ces lieux multiples pour les formater convenablement, en les attribuant à chaque auteur sous la forme d’un objet “liste”, pour ensuite dupliquer chaque ligne contenant plusieurs lieux. Cela nous aurait permis de faire une analyse plus complète des lieux ; un même auteur avec un seul identifiant aurait alors pu être représenté par plusieurs points, de sorte qu’il aurait été possible de repérer, sur les nuages de points, le lieu “aberrant” et le lieu “correct” vis-à-vis de la logique dominante qui se serait dégagée.

    Nous avons également relevé, mais sans y appliquer un traitement particulier, qu’il pouvait exister diverses appellations pour un espace géographique identique, en totalité ou en partie. Par exemple, nous observons les modalités “Ionia”, “Turkey”, “Anatolia” ou encore “Tunisia”, “North Africa”, “Africa”. Ces désignations sont probablement liées en partie à l’époque à laquelle appartient l’auteur : par exemple, “Ionia” serait plutôt l’appellation employée pour les poètes archaïques et les philosophes présocratiques, alors que “Turkey” correspondrait aux auteurs chrétiens. Cependant, cette explication ne semble pas s’appliquer à tous les lieux et à tous les auteurs puisque, comme nous pourrons l’observer dans les graphiques des paragraphes consacrés aux identifiants et lieux, le lieu “Turkey” concerne des auteurs dès le quatrième siècle avant notre ère. Comprendre la logique qui a conduit à désigner ces territoires en fonction des dates, et peut-être des genres, pourrait faire l’objet d’une étude à part entière. Nous avons cependant gardé les désignations de lieux telles que nous les avons récupérées dans nos données.

  • Pour les genres, lorsqu’un auteur appartenait à plusieurs genres, nous n’avons conservé que le premier genre qui apparaissait par ordre alphabétique – de même que nous venons de l’expliciter quant aux lieux multiples, il aurait alternativement été possible d’user d’objets “liste”.

  • On remarquera dans le tableau d’auteurs grecs au chapitre “Données finales obtenues” que certains genres littéraires figurent dans la colonne des noms d’auteurs (issue de Perseus) alors qu’elles sont manquantes dans celle des genres (dans le tableau importé CLTK). Une observation plus attentive permet cependant de remarquer que ces “genres” qui apparaissent dans la colonne (par exemple epistulae) font partie intégrante de la variable name ; ils ne sont pas qualifiants d’un auteur, mais désignent un corpus qualifié par le nom d’un auteur - réel, inconnu ou réinventé - désigné par la tradition. Par exemple, Alexandri Magni epistulae ne désigne pas Alexande le Grand, auteur d’epistulae, mais des epistulae dont l’auteur est Alexandri Magni – autrement dit, sous cet identifiant est regroupée la correspondance de cet auteur. Nous avons conservé les noms tels qu’ils apparaissaient dans les données que nous utilisons.

Principes méthodologiques

Nous allons formater les données que nous avons récupérées pour qu’elles correspondent aux variables que nous avons décrites, en procédant successivement variable par variable.

Pour chaque section de formatage, nous allons procéder dans l’ordre suivant :

  • Présentation de la variable et du formatage nécessaire
  • Création de fonctions adaptées pour formater la variable convenablement
  • Test des fonctions, sur des données choisies ou une copie intermédiaire de nos données
  • Application des fonctions à nos tableaux de données
  • Corrections supplémentaires, si nécessaire
  • Résumé des données obtenues pour la variable

Cette démarche nous permet d’agir, dans le processus de développement du code source servant à notre analyse, avec flexibilité : nous pourrons notamment réaliser des tests au fur et à mesure que nous ajustons et perfectionnons nos fonctions de formatage, dans un aller-retour entre section de tests et section de création de fonctions.

Il y aura ainsi cinq parties :

  1. Récupération de la liste des auteurs (depuis le données Perseus)
  2. Formatage des dates (récupérées à l’étape 1)
  3. Formatage des lieux (récupérés à l’étape 1)
  4. Adjonction des genres littéraires (depuis les données CLTK)
  5. Formatages supplémentaires finaux

Pour finir, la section conclusive contiendra l’ensemble des données ainsi obtenues.

1.1. Des œuvres aux auteurs

Puisque les données récupérées depuis le tableur du projet Perseus consistent en une liste d’œuvres, nous devons en faire une liste d’auteurs, en récupérant les données qui nous intéressent.

On conserve, pour chaque auteur, les variables suivantes :

Description Nom dans notre tableau Nom dans le tableau original
nom name TLG / PHI AUTHOR NAME
identifiant code TLG / PHI #
lieu place Location
date d’activité date_active Century/Dates Active
date “de départ” ou de naissance date_begin Begin Date/Birth Year
date “de fin” ou de mort date_end End Date/Death Year

Pour la date d’activité, il s’agit le plus souvent de siècles, formatés comme des années multiples de 100 (eg. “100 CE” correspond au premier siècle). Pour les dates de début ou de fin, il s’agit d’années ou de siècles (formatés alors comme précédemment).

# We will compute the authors dataframes from the works dataframes.
# Didactic demo code: selecting and renaming columns.
tlg_authors_df <-
  tlg_works_raw_df %>%
  transmute(
    code = `TLG#`,
    name = `TLG AUTHOR NAME`,
    place = `Location`,
    date_active = `Century/Dates Active`,
    date_begin = `Begin Date/Birth Year`,
    date_end = `End Date/Death Year`
  )

Fonctions et application

# Since we will be doing exactly the same operations on both works list,
# we will use functions (to avoid hurtful copy-pasting, which is inconvenient for code modifications).
# Hopefully, column names are almost the same in both retrieved documents.
# Passing column names through a function is not obvious,
# but it's possible if we use what is called quosures.
# @see https://github.com/r-lib/rlang/issues/116
# @see https://stackoverflow.com/questions/48062213/dplyr-using-column-names-as-function-arguments

#' Extract authors from raw works dataframe.
#' @param works_raw_df Dataframe. Works as dataframe, extracted from data.
#' @param specific_filling String. String that is specific to the columns names in the data.
#' e.g. "PHI" is used in the latin works dataframe for naming some columns,
#' whereas "TLG" is prefered in the greek one.
#' @return Dataframe. Authors as dataframe.
extract_authors <- function(works_raw_df, specific_filling) {
  # Compute some column names that are specific to the given data frame.
  code_col_name <- paste0(specific_filling,"#")
  author_col_name <- paste0(specific_filling," AUTHOR NAME")

  # Build the data frame.
  authors_df <-
    # 1. Keep only the columns we need from raw data and rename them.
    works_raw_df %>%
    transmute(
      code = !!sym(code_col_name),    # Identifiant de l'auteur
      name = !!sym(author_col_name),  # Nom de l'auteur
      place = `Location`,
      date_active = `Century/Dates Active`,
      date_begin = `Begin Date/Birth Year`,
      date_end = `End Date/Death Year`
    ) %>%
    # 2. Drop trailing carriage returns that mess things up.
    mutate_all(~ str_replace_all(., "\n$", "")) %>%
    # 3. Trim all.
    mutate_all(~ str_trim(.)) %>%
    # 4. Keep only the first four digits from the code,
    # and parse it to a numerical value for further analysis.
    # Only the first four are relevant to the author,
    # other trailing characters in the code
    # can characterize the work, for instance
    # (remember it's a list of works we have at the beginning).
    # Beware: When numbers are <1000, they are not always padded on the right.
    mutate(
      code = code %>%
        str_extract("^\\d{1,4}") %>%
        parse_number()
    ) %>%
    # 5. Select only one row per unique code,
    # that is to say: keep only one row per author,
    # instead of one row per work.
    # We could have used the author's name, but
    # 1) using the code drops the authors who do not have a code,
    # and since we want to analyze codes,
    # we have no use of authors that do not have a code;
    # 2) using the name would keep only one individual for hononyms instead of several.
    # rq: It keeps one row with 'NA' as code, we will remove it hereafter.
    distinct(code, .keep_all = TRUE) %>%
    # 6. Sort by code.
    arrange(code) %>%
    # 7. Replace NA-equivalent values to proper NA.
    mutate_all(~ replace(., . %in% na_variants, NA)) %>%
    # 8. Drop rows that don't have any code.
    drop_na(code)

  # Return the data frame.
  return(authors_df)
}

phi_authors_df <- extract_authors(phi_works_raw_df, "PHI")
tlg_authors_df <- extract_authors(tlg_works_raw_df, "TLG")

Corrections d’erreurs manuelles

Nous n’avons pas vérifié de manière systématique les erreurs qui peuvent être présentes dans les données que nous avons récupérées, nous corrigeons seulement celles qui relèvent de valeurs aberrantes immédiatement visibles lors de nos formatages ultérieurs, manifestement dues à des erreurs de frappe, comme par exemple l’indication de “Rhodes” comme siècle d’activité.

# Some manual corrections of errors in the data.
# The transformations are as follows:
# - place <-> date_active, for 2353 (instead of "500 BCE" as place and "Rhodes" as date)
# - place -> date_active, for 1784 (instead of "400 BCE" as place)
# - date_active -> NA, for 2514 (instead of "Rome, Italy")
# - date_end -> "495 BCE/478 BCE", for 0237 (instead of "CE" when the other two are "BCE")
tmp_place_2353 <-
  tlg_authors_df %>%
  filter(code == 2353) %>%
  pull(date_active)
tlg_authors_df <- tlg_authors_df %>%
  mutate(
    date_active = case_when(
      code == 1784 | code == 2353 ~ place,
      code == 2514 ~ NA_character_,
      TRUE ~ date_active
    ),
    place = case_when(
      code == 1784 ~ NA_character_,
      code == 2353 ~ tmp_place_2353,
      TRUE ~ place
    ),
    date_end = case_when(
      code == 237 ~ "495 BCE/478 BCE",
      TRUE ~ date_end
    )
  )
# Remove variables that are useless in the future.
remove(tmp_place_2353)

1.2. Formatage des dates

Les dates extraites de nos données d’origine sont peu mobilisables dans des analyses statistiques, elles manquent de cohérence et sont difficilement interprétables programmatiquement, ne correspondant à aucun format structuré.

Nous allons donc les formater convenablement.

Les données d’origine sont textuelles et contiennent plusieurs erreurs et irrégularités. Par conséquent, le travail d’encodage à faire est important.

Nous allons commencer par établir les expressions régulières : d’abord celles qui semblent correspondre plus ou moins aux données de départ, puis celles auxquelles nous souhaitons faire strictement correspondre les données “mises au propre”.

Une fois cet objectif déterminé, nous devrons tout d’abord re-formater les dates en restant dans le domaine des chaînes de caractères, de telle sorte qu’elles correspondent scrupuleusement à l’expression régulière finale que nous souhaitons, puis, une fois ce travail accompli, nous pourrons les convertir en nombre facilement.

L’expression régulière finale aura la forme suivante :

"(ante|post)?(\\d{1,4})(ce|bce)(\\?)?"

ante 200 bce ?

avant / après la date considérée
année
avant / de notre ère
indicateur de date incertaine

La date peut également être un intervalle : ce sont alors deux dates formatées comme ci-dessus liées par un tiret.

Nous ne retiendrons néanmoins sous la forme numérique, pour chaque date, que les deux parties centrales, à savoir l’année et si cela est avant notre ère ou de notre ère. “ante200bce?” donnera donc “-200”.

Comme nous l’avons déjà évoqué, lorsque nous seront face à un intervalle, nous prendrons la moyenne des extrémités : “100ce-200ce” donne “150”.

Remarques techniques introductives

# We will need a date parser.

# We could extract the first (most-left) match from the sequence of digits,
# which would be good enough,
# but this does not deal with BCE/CE, nor does it assure data correctness.
# So we will parse things in a neatlier way.
# Here we have to deal with the date before common era (BCE) and within common era (CE).

# This causes a few problems
# since most specifications and packages do not deal with this natively:

# - Timestamps usually start at 1970-01-01.
# Dates before are stored as negative values, eg.
lubridate::ymd_hms("1969-12-31T23:59:59") # == -1

# - ISO 8601 year starts at 0000-01-01 which is the 1st January of 1 BCE.
# @see https://en.wikipedia.org/wiki/ISO_8601

# Reminder: There is no such thing as year zero.
# @see https://en.wikipedia.org/wiki/Year_zero
# Although, there are some "0 CE" and "0 BCE" in our data, which is not clear.
# A few remarks about the lubridate package.

# The lubridate package
# - Does not handle BCE date natively
# - Will not be able to match our data as raw values
# (that have intervals and CE/BCE specifications)
# @see https://lubridate.tidyverse.org/
# @see https://raw.githubusercontent.com/rstudio/cheatsheets/master/lubridate.pdf
# @see https://github.com/tidyverse/lubridate/issues/2

# If we want to deal with BCE date anyway, we could do something such as:
lubridate::ymd("0000-01-01") - lubridate::years(1) # == "-001-01-01"
# @WARN: Since "0000-01-01" is 1 BCE, "-0001-01-01" would be 2 BCE.
# We could write a helper function to retrieve correct dates from this,
# also taking into account months, days, etc., that we do not need here.

On prépare les données qui nous serviront pour nos tests.

# Test sample from the data,
# to build regex fitted for most common cases.
test_dates <- c(
  "400 BCE",
  "200 BCE?",
  "10 CE",
  "01 CE",
  "200 CE",
  "200 CE?",
  "1050 CE",
  "ante 200 CE",
  "Ante 100 CE",
  "post 200 CE",
  "90 CE/95 CE",
  "100 BCE-0 CE",
  "600 BCE-500 BCE",
  "100 CE-200 CE?",
  "100 BCE-100 CE",
  "284 BCE/275 BCE",
  "1100 CE-1200 CE",
  "ante 100 CE-200 CE",
  # Writing errors?
  "500 BCE-",
  "200 - 400 CE"
)

# Every date in the data, to functions against them.
test_cols_dates <- c(
  tlg_authors_df$date_active,
  tlg_authors_df$date_begin,
  tlg_authors_df$date_end,
  phi_authors_df$date_active,
  phi_authors_df$date_begin,
  phi_authors_df$date_end
)

Trouver l’expression régulière adaptée

# Regular expressions.
# rq: The (?i) flag for case-insensitivity works with the stringr package.
# It may end up duplicated here, but it does not seem to matter.

# 1. Loose regular expressions,
# avoiding any re-writing of data.
date_loose_single_regex <- "(?i)((ante|post|pre|before)? ?\\d{1,4} ?(CE|BCE)\\??-?)"
date_loose_regex <- paste0(date_loose_single_regex," ?((-|/) ?",date_loose_single_regex,")?")

# 2. Strict regular expressions,
# that requires pre-formatting of data,
# such as whitespaces removing and terms homogeneity.
date_single_regex <- "(ante|post)?(\\d{1,4})(ce|bce)(\\?)?"
# Capturing groups (starting at 2, in columns of the matrix resulting from`match()`):
# - 2-5 are for left-side (start of date interval)
# - 6-9 are for right-side (end of date interval)
# - 2, 6: "ante" or "post" (optional)
# - 3, 7: year as number
# - 4, 8: "ce" or "bce"
# - 5, 9: whether it is an approximation (optional)
date_regex <- paste0(date_single_regex,"(?:-",date_single_regex,")?")
# Test to adjust regex gradually, we look at what does not pass the regex.
test_dates %>% str_subset(paste0("^",date_loose_regex,"$"), negate = TRUE)
test_cols_dates %>%
  setdiff(na_variants) %>%
  str_subset(paste0("^",date_loose_regex,"$"), negate = TRUE)

Après plusieurs essais, on comprend qu’une expression régulière ne va pas suffire pour récupérer les informations depuis les données d’origine : un formatage supplémentaire préalable se révèle nécessaire.

Formater les chaînes de caractères

#' Format dates from a string vector so they match our strict regex.
#' @param str_v String vector containing date to format.
#' @return String vector with dates formatted.
format_dates <- function(str_v) {
  res_str_v <-
    str_v %>%
    # 1. Lowercase.
    str_to_lower() %>%
    # 2. Remove every whitespaces, as they are meaningless.
    str_replace_all(" ", "") %>%
    # 3. Replace irregular values to homogenize.
    str_replace_all(c(
      "/" = "-",
      "pre|before" = "ante"
    )) %>%
    # 4. Fix some writing errors.
    # rq: Here we temporary use whitespaces
    # as they are nicer than lookarounds, eg. "(?<=\d)bcw(?=-|$)"
    str_replace_all("([a-z]+)", " \\1 ") %>%
    str_replace_all(c(
      " e " = "ce",
      " cer " = "ce",
      " be " = "bce",
      " bc " = "bce",
      " bcw " = "bce",
      " bcebce " = "bce"
    )) %>%
    str_replace_all(" ", "") %>%
    # 5. Remove trailing "-".
    str_replace_all("-$", "") %>%
    # 6. Add ce/bce on the left side when it is missing.
    # @WARN: Here, we use lookahead to copy the right side to the left side,
    # as if it were a common factor.
    # In our data things seem to be doing fine,
    # but this method does not handle the hypothetical case
    # where left-side would be BCE and right CE.
    # In this case, we would know that,
    # considering left comes chronologically before right:
    # - If right is BCE, then left is also BCE;
    # eg. 200-100bce must be 200bce-100bce
    # - If right is CE, then left is BCE
    # if digits on the left are greater than the ones on the right;
    # eg. 200-100ce must be 200bce-100ce
    # - If there are not, we cannot be sure if left is CE or BCE.
    # eg. 50-100ce cannot be determined
    # So we would need to match, parse to number, and compare each side.
    str_replace_all("(\\d)(?=-\\d+(bce|ce))", "\\1\\2")
  # 7. Delete elements that still don't pass the regex,
  # there are not valid dates and we cannot make them fit into one.
  # In our data, we are left with "rhodes" and "rome,italy".
  # They are not dates. We fix those two in previous sections of the document.
  res_str_v <- res_str_v %>%
    str_detect(paste0("^",date_regex,"$")) %>%
    if_else(res_str_v, NA_character_)

  return(res_str_v)
}
# Test to improve formatting gradually, we look at what does not pass the regex.
test_cols_dates %>%
  format_dates() %>%
  str_subset(paste0("^",date_regex,"$"), negate = TRUE)

Convertir les caractères en nombres

#' Helper function.
#' Convert a side of the interval into a number.
#' @param match String vector. Relevant portion of a match from convert_dates()
#' @return Number, date as number
hlp_convert_single_date <- function(match) {
  is_bce <- if_else(match[, 3] == "bce", TRUE, FALSE)
  number <- parse_number(match[, 2])
  number <- if_else(is_bce, -number, number)
  return(number)
}
#' Convert dates into a number, which is the year.
#' CE years are positive values, BCE years are negative values.
#' If the date includes an interval, take the mean of the interval.
#' @param str_v String vector containing date to convert.
#' @return Number vector with converted dates.
convert_dates <- function(str_v) {
  match <- str_match(str_v, date_regex)
  left_number <- hlp_convert_single_date(match[, 2:5])
  right_number <- hlp_convert_single_date(match[, 6:9])
  res_number <- map2_dbl(
    left_number,
    right_number,
    ~ mean(c(.x, .y), na.rm = TRUE)
  )
  return(res_number)
}
test_cols_dates %>%
  format_dates() %>%
  convert_dates()

Application aux données

#' Parse dates from a dataframe.
#' @param df Dataframe containing date columns to parse.
#' @return Dataframe with dates parsed.
#' @see https://stackoverflow.com/questions/45947787/create-new-variables-with-mutate-at-while-keeping-the-original-ones
parse_dates_df <- function(df) {
  # Columns that we will compute on
  cols <- c("date_active", "date_begin", "date_end")

  res_df <-
    df %>%
    # 1. Apply the functions to every columns we selected.
    mutate(across(
      .cols = all_of(cols),
      .fns = list(
        str = format_dates,
        num = ~ format_dates(.) %>% convert_dates()
      ),
      .names = "{col}_{fn}"
    )) %>%
    # 2. Drop original colums to replace them with their numeric equivalent
    select(-all_of(cols)) %>%
    rename_at(
      paste0(cols,"_num"),
      ~ cols
    ) %>%
    # 3. Regroup columns by type
    relocate(all_of(cols), .before = "date_active_str")

  return(res_df)
}

phi_authors_df <- phi_authors_df %>%
  parse_dates_df()
tlg_authors_df <- tlg_authors_df %>%
  parse_dates_df()

Résumé des dates obtenues

# Beware, the code writing is not great here,
# it has been done quickly.
# To improve, one could look at dyplr::summarise(), or skimr
#' @param df Dataframe.
#' @return NULL. It prints the summary.
print_date_summary <- function(df) {
  tmp_cols <- list(
      df$date_active,
      df$date_begin,
      df$date_end
    ) %>%
    transpose()
  tibble(
    col_name = c("date_active", "date_begin", "date_end"),
    min = pmap_dbl(tmp_cols, min, na.rm = TRUE),
    max = pmap_dbl(tmp_cols, max, na.rm = TRUE)
  )
}

Auteurs latins
print_date_summary(phi_authors_df)

Les auteurs latins que nous avons se répartissent, globalement, du VIe siècle avant notre ère, au VIe siècle de notre ère.


Auteurs grecs
print_date_summary(tlg_authors_df)

Les auteurs grecs que nous avons se répartissent, globalement, du VIIIe siècle avant notre ère, au XVIe siècle de notre ère.

1.3. Formatage des lieux

Pour s’assurer de l’homogénéité des données, tout en gagnant en généralité, nous n’allons garder en matière de lieu que le pays, en laissant de côté des indications plus précises comme la ville. Nous ne gardons également arbitrairement qu’un seul pays lorsque plusieurs sont indiqués.

#' Format places.
#' Only the most-left string, uninterrupted by a comma, is kept.
#' @param df Dataframe
#' @return Dataframe
format_places_df <- function(df) {
  res_df <-
    df %>%
    rowwise() %>%
    mutate(
      place = place %>%
        # 1. Split by comma or similar signs that are also used.
        # Comma and slash are meaningful,
        # but dots or double backslashes seem to be mistakes.
        str_split( ",|/|\\.|\\\\") %>%
        # 2. Keep only the last part
        unlist() %>%
        last() %>%
        # 3. Clean the result for homogeneity
        str_trim() %>%
        str_to_title() %>%
        str_replace_all("\\?", "") %>%
        # 4. Fix some writing errors.
        str_replace_all(c(
          "Liby$" = "Libya",
          "Cyrpus" = "Cyprus"
        ))
    ) %>%
    ungroup()
  return(res_df)
}
# Check that final places are unique.
test_places <- function(df) {
  df %>%
    format_places_df() %>%
    distinct(place) %>%
    arrange(place) %>%
    pull(place)
}
test_places(phi_authors_df)
test_places(tlg_authors_df)
phi_authors_df <- format_places_df(phi_authors_df)
tlg_authors_df <- format_places_df(tlg_authors_df)

Résumé des lieux obtenus


Auteurs latins
phi_authors_df %>%
  distinct(place) %>%
  arrange(place) %>%
  pull() %>%
  print_vector()
Africa Algeria Egypt France Italy Lebanon Libya North Africa Spain Tunisia Turkey
phi_authors_df %>%
  summarise(
    n = n(),
    na_n = sum(is.na(place)),
    na_rate = round(na_n / n, 3)
  )

Auteurs grecs
tlg_authors_df %>%
  distinct(place) %>%
  arrange(place) %>%
  pull() %>%
  print_vector(8)
Albania Anatolia Armenia Bulgaria Cous Crete Cyprus Delos
Egypt Elaita Ephesos Epirus France Greece Iasensis Incerta
Ionia Iran Iraq Israel Italy Jordan Lebanon Lesbos
Libya Lydia Macedonia Manesium Mauretania Mendesicus Mytilene Olynthus
Palestine Pontus Euxinus Rhodes Romania Rome Sardianus Scythia Sicily
Sicyon Syria Syrian Antioch Thrace Tunisia Turkey Ukraine
tlg_authors_df %>%
  summarise(
    n = n(),
    na_n = sum(is.na(place)),
    na_rate = round(na_n / n, 3)
  )

1.4. Adjonction des genres

On ajoute finalement les genres, depuis les données du CLTK. Lorsqu’il y aura plusieurs genres pour un même auteur, on ne conservera que le premier genre dans l’ordre alphabétique.

tmp_tlg_epithets_df <-
  tlg_epithets_raw_df %>%
  unnest(cols = code) %>%
  mutate(code = code %>%
    unlist() %>%
    parse_number()
  ) %>%
  distinct(code, .keep_all = TRUE)
tlg_authors_df <- tlg_authors_df %>%
  left_join(tmp_tlg_epithets_df, by = "code") %>%
  relocate(genre, .after = name)
remove(tmp_tlg_epithets_df)

Résumé des genres obtenus

tlg_authors_df %>%
  distinct(genre) %>%
  arrange(genre) %>%
  pull() %>%
  print_vector(6)
Alchemistae Apologetici Astrologici Astronomici Atticistae Biographi
Bucolici Choliambographi Chronographi Comici Doxographi Elegiaci
Epici/-ae Epigrammatici/-ae Epistolographi Geographi Geometri Gnomici
Gnostici Grammatici Historici/-ae Iambici Lexicographi Lyrici/-ae
Mathematici Mechanici Medici Mimographi Musici Mythographi
Nomographi Onirocritici Oratores Paradoxographi Parodii Paroemiographi
Periegetae Philologi Philosophici/-ae Poetae Poetae Didactici Poetae Medici
Poetae Philosophi Polyhistorici Rhetorici Scriptores Ecclesiastici Scriptores Erotici Scriptores Fabularum
Sophistae Tactici Theologici Tragici

Les données obtenues directement depuis le fichier du CLTK paraissent ne pas comporter d’irrégularités et donc ne pas nécessiter de nettoyage supplémentaire.

tlg_authors_df %>%
  summarise(
    n = n(),
    na_n = sum(is.na(genre)),
    na_rate = round(na_n / n, 3)
  )
tlg_authors_df %>% slice(31:40)

Notons néanmoins qu’il aurait été plus efficace de récupérer l’information des genres directement sur le nom des auteurs : en calculant les valeurs manquantes, on voit qu’il nous en manque plus d’un tiers, et en consultant le contenu des tableaux (ci-dessus un extrait), on s’aperçoit que bien souvent l’épithète qui apparaît pourtant dans le nom n’apparaît pas dans la colonne générée à partir des données du CLTK.

1.5. Formatages supplémentaires

Pour terminer et faciliter les analyses graphiques suivantes, nous allons créer deux nouvelles variables :

  • l’initiale : pour éviter d’avoir à traiter des milliers de noms d’auteurs alors que nous nous intéresserons à un possible classement alphabétique, nous pourrons ainsi ne retenir que leur initiale. Cela nous permettra également d’afficher des couleurs en fonction des initiales, celles-ci constituant une variable catégorielle ;

  • la date : on prendra arbitrairement le plus souvent le siècle d’activité comme date de référence, d’où nous en dupliquons la colonne pour y accéder plus facilement.

De plus, nous supprimons les caractères indésirables au début du nom des auteurs, pour être sûrs de récupérer l’initiale correctement et d’être conformes à l’ordre alphabétique.

# Nettoyage de parenthèses diverses pour le fichier TLG
tlg_authors_df$name <- gsub("(<|\\[|\\()", "", tlg_authors_df$name)

# Création d'une colonne des initiales des auteurs
tlg_authors_df$init <- substring(tlg_authors_df$name,1,1)
phi_authors_df$init <- substring(phi_authors_df$name,1,1)

# Réorganisation de l'ordre des colonnes
tlg_authors_df <- tlg_authors_df %>%
  relocate(init, .before = name)
phi_authors_df <- phi_authors_df %>%
  relocate(init, .before = name)

# Ajout d'une colonne "date" qui copie "date_active", par commodité
tlg_authors_df <- tlg_authors_df %>%
  mutate(date = date_active, .before =  date_active)
phi_authors_df <- phi_authors_df %>%
  mutate(date = date_active, .before =  date_active)

Données finales obtenues

Pour savoir plus précisément ce à quoi correspondent chacune des variables obtenues, rendez-vous au début de la section !


Auteurs latins

phi_authors_df
skim(phi_authors_df)
Data summary
Name phi_authors_df
Number of rows 358
Number of columns 11
_______________________
Column type frequency:
character 6
numeric 5
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
init 12 0.97 1 1 0 19 0
name 12 0.97 5 60 0 346 0
place 100 0.72 5 12 0 11 0
date_active_str 77 0.78 5 14 0 27 0
date_begin_str 170 0.53 3 13 0 121 0
date_end_str 156 0.56 3 13 0 136 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
code 0 1.00 855.19 1061.21 2 445.25 643 1013.25 9969 ▇▁▁▁▁
date 77 0.78 -21.85 174.43 -550 -150.00 -100 100.00 550 ▁▅▇▂▁
date_active 77 0.78 -21.85 174.43 -550 -150.00 -100 100.00 550 ▁▅▇▂▁
date_begin 170 0.53 -35.12 146.09 -529 -116.50 -75 39.62 483 ▁▃▇▂▁
date_end 156 0.56 23.72 151.75 -430 -67.00 -11 96.50 565 ▁▇▇▂▁

Auteurs grecs

tlg_authors_df
skim(tlg_authors_df)
Data summary
Name tlg_authors_df
Number of rows 2176
Number of columns 12
_______________________
Column type frequency:
character 7
numeric 5
________________________
Group variables None

Variable type: character

skim_variable n_missing complete_rate min max empty n_unique whitespace
init 40 0.98 1 1 0 24 0
name 40 0.98 4 65 0 2033 0
genre 860 0.60 6 24 0 52 0
place 701 0.68 4 14 0 47 0
date_active_str 175 0.92 4 15 0 110 0
date_begin_str 930 0.57 3 13 0 343 0
date_end_str 914 0.58 3 13 0 361 0

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
code 0 1.00 1565.75 1250.89 1 593.75 1425.5 2186.25 9023 ▇▃▁▁▁
date 175 0.92 -56.06 389.59 -800 -350.00 -125.0 200.00 1550 ▇▇▆▁▁
date_active 175 0.92 -56.06 389.59 -800 -350.00 -125.0 200.00 1550 ▇▇▆▁▁
date_begin 930 0.57 -96.66 378.54 -800 -399.00 -199.0 116.50 1465 ▆▇▃▁▁
date_end 914 0.58 -6.50 377.31 -680 -300.00 -100.0 200.00 1535 ▇▇▃▁▁

2. Analyses graphiques

Pour trouver les logiques internes de classement, nous allons procéder progressivement, en analysant successivement les différentes variables en fonction de la variable à expliquer, l’identifiant.

Nous commencerons par analyser les variables deux à deux, en projetant les auteurs selon un nuage de points. L’identifiant, variable à expliquer, sera systématiquement projeté en abscisse, et la variable potentiellement explicative en ordonnée.

Puis nous chercherons à saisir des sous-logiques internes en ajoutant une troisième variable, ce qui correspond à une “troisième dimension” sur nos graphiques, que nous matérialiserons par de la couleur.

Si nécessaire, au fil de nos analyses, nous pourrons revenir en “deux dimensions” si cela paraît pertinent – éventuellement en colorant une des dimensions pour davantage de clarté visuelle –, par exemple sur une séquence particulière – car il se pourrait bien que nous découvrions l’existence de “séquences” particulières…

À chaque fois, on analysera les auteurs grecs, puis les auteurs latins. Au fur et à mesure, on saisira les logiques sous-jacentes aux classifications TLG et PHI.

Analyses en deux dimensions

2.1. Les identifiants par les noms

La classification qui paraîtrait la plus intuitive est celle de l’ordre alphabétique. Voyons donc si les codes sont corrélés ou non aux noms des auteurs projetés par ordre alphabétique.


Auteurs grecs

tlg_authors_df %>%
  ggplot(aes(code, fct_reorder(name, desc(name))))  +
  geom_point() +
  labs(title = "Identifiants TLG et noms",  x = "code", y = "name")

Ce premier graphique présente un premier problème : les données sont très nombreuses, si bien que les résultats sont peu clairs. On observe néanmoins que la majorité des codes se trouvent entre 0 et 2500, et la grande majorité entre 0 et 5000. On pourrait donc se concentrer sur cette portion, et masquer les noms de sorte à ce que le graphique puisse davantage s’étaler.

tlg_authors_df %>%
  filter(code < 5000) %>%
 ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants TLG et noms (0-5000)", x = "code", y = "name") +
  scale_x_continuous(breaks = round(seq(0, 5000, by = 200),1)) +
  theme(
    axis.text.y = element_blank(),
    axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1),
    panel.grid.major.x = element_line(size = 0.5, color = "grey")
  )

On observe assez clairement des lignes droites. Cela ressemble à des séries cohérentes de noms classés par ordre alphabétique sur certaines portions. Il faudrait donc découper les codes TLG en plusieurs séquences successives pour en analyser la logique interne.

On observe notamment que les droites qui apparaissent se situent avant le code 1800 : il semblerait donc que les codes ultérieurs obéissent à une autre logique que la logique alphabétique, alors qu’avant 1800 il y aurait pu avoir des “ajouts par vagues successives” à la liste des identifiants, chaque vague étant par ordre alphabétique.

Intéressons-nous plus en détail à la séquence avant 1800.

# Première tentative de créer un vecteur à partir des codes,
# pour les diviser en plusieurs séquences,
# et en tirer des informations plus facilement.
#code_authors_tlg <-
#  as_tibble(tlg_authors_df) %>%
#  slice(code) %>%
#  unlist(., use.names = FALSE)
#split(code_authors_tlg, 1:2545)

tlg_authors_df %>%
  filter(code < 1800) %>%
  ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants TLG et noms (0-1800)", x = "code", y = "name") +
  scale_x_continuous(breaks = round(seq(0, 1800, by = 100),1)) +
  theme(
    axis.text.y = element_blank(),
    axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1),
    panel.grid.major.x = element_line(size = 0.5, color = "grey")
  )

  labs(title = "Identifiants TLG et noms (0-5000)")
$title
[1] "Identifiants TLG et noms (0-5000)"

attr(,"class")
[1] "labels"

On observe :

  • Une séquence évidente de ~1100 à ~1800. Elle va de presque le début de l’alphabet, à la fin de l’alphabet ;
  • Deux séquences, de ~390 à ~520, et de ~750 à ~1120, qui s’étendent tout le long de l’alphabet ;
  • Une séquence de ~100 à ~200 qui s’arrête vers le milieu de l’alphabet ;
  • Une petite séquence concentrée au début de l’alphabet entre ~650 et ~750. Dans l’alphabet (en ordonnées), elle semble s’arrêter proche de la valeur où la longue traînée de ~1100 à ~1800 commence.

De plus, on remarque plusieurs éléments :

  • Même sur cette portion, il y a plusieurs séquences d’identifiants qui paraissent ne pas suivre la logique alphabétique (en particulier entre 0 et 100, entre 200 et 400, entre 520 et 650). Ces séquences pourraient suivre une autre logique, ou bien ne correspondre à rien d’identifiable facilement – il pourrait s’agir d’une attribution “au hasard”, ou correspondre à une entrée des identifiants “au fil de l’eau” sans logique systématique pré-établie, par exemple au fur et à mesure que de nouveaux auteurs enrichissaient le corpus TLG.

  • Même sur les séquences où l’ordre alphabétique paraît significatif, il y a parfois quelques “points aberrants”, éloignés de la droite qui se dessine : ils semblent ne pas suivre la logique de la séquence d’identifiants dans laquelle ils s’insèrent. Le plus vraisemblable, c’est alors que le nom que nous avons dans nos données ne corresponde pas au nom qui a été utilisé pour attribuer l’identifiant – ou alors, lorsque le nom est composé de plusieurs termes, que celui positionné en premier dans nos données ne soit pas celui qui ait servi pour l’indexation alphabétique de l’auteur, comme dans le cas d’un prénom suivi d’un patronyme.

  • Enfin, on remarque un aspect qui pouvait déjà être aisément constaté auparavant : il existe des “identifiants” manquants, auxquels aucun auteur ne correspond. Ce phénomène semble apparaître également au sein même des séries alphabétiques. Par exemple :

tlg_authors_df %>% filter(code >= 840 & code <= 850)

On observe ici qu’entre les identifiants 840 et 850, on ne trouve en fait que deux identifiants : le 845 et le 848. Les identifiants 840, 841, 842, 843, 844, 846, 847, 849 et 850 sont “manquants”.

Ce dernier phénomène ne paraît pas évident à expliquer. Nous voyons plusieurs hypothèses qui peuvent être complémentaires. Il pourrait s’agir de séquences programmées, la plage leur étant alors réservée, mais finalement non réalisées, ou réalisées uniquement partiellement, par exemple du fait de corpus non prêts dans les temps. Si les sauts existaient au moment même de l’attribution, il se pourrait autrement qu’ils relèvent d’erreurs ou d’ajouts intempestifs au sein d’une série plus longue. On pourrait sinon imaginer que ces “sauts” pourraient aussi être le résultat de manipulations ultérieures : les auteurs qui possédaient ces identifiants auraient été “réattribués”, ou même tout simplement supprimés, pour une raison ou pour une autre. Pour autant cette hypothèse semble peu probable, dans la mesure où la modification de l’identifiant d’un corpus publié poserait des problèmes techniques de réattribution en chaîne pour son référencement.

Ces hypothèses demeurent spéculatives, dans la mesure où nous ne disposons pas de l’historique de constitution de ces bases de données. Une variable comme la date d’entrée du corpus dans la bibliothèque pourrait ici nous éclairer.

Auteurs latins

Passons aux auteurs latins.

phi_authors_df %>%
  ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants PHI et noms",  x = "code", y = "name")

On voit que la grande majorité des identifiants sont inférieurs à 2500 : concentrons-nous sur cette portion.

phi_authors_df %>%
  filter(code < 2500) %>%
  ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants PHI et noms (0-2500)", x = "code", y = "name") +
  scale_x_continuous(breaks = round(seq(0, 2500, by = 100),1)) +
  theme(
    axis.text.y = element_blank(),
    axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1),
    panel.grid.major.x = element_line(size = 0.5, color = "grey")
  )

Contrairement aux auteurs grecs du TLG, les résultats paraissent cette fois beaucoup moins évidents, et la corrélation entre l’identifiant et la place du nom dans l’ordre alphabétique est un peu douteuse. Tout au plus, on pourrait penser qu’il existe une petite tendance de ~400 à ~700, voire entre ~800 et ~1050. Mais il semblerait que la classification obéisse essentiellement à d’autres logiques, que nous allons désormais tenter d’explorer.

2.2. Les identifiants par les dates

Après l’ordre alphabétique, une autre classification qui paraîtrait assez intuitive est la classification chronologique par dates. Nous allons donc voir dans quelle mesure les codes TLG et PHI sont explicables par l’époque des auteurs, puis nous croiserons ensuite, dans la partie suivante, la date avec d’autres variables.


Auteurs grecs

# Première étude en noir et blanc
ggplot(tlg_authors_df, aes(x = code, y = date)) +
  geom_point() +
  labs(title = "Identifiants TLG et dates")

À première vue, la variable “date” n’explique pas la variable “code” du TLG. Les 2600 premiers identifiants se concentrent avant 2500, et l’on constate quelques “cheminées” aux environs de 3000, 4000 et 9000 concernant surtout les auteurs d’après 500 CE.


Auteurs latins

ggplot(phi_authors_df, aes(x = code, y = date)) +
  geom_point() +
  labs(title = "Identifiants PHI et dates")

Concernant les auteurs latins, on semble apercevoir pour le code PHI une corrélation assez forte entre la progression des identifiants et celle des dates. Un identifiant culmine à 9500 et trois autres auteurs dépassant 9000 ne sont pas datés.

cor.test(phi_authors_df$code, phi_authors_df$date)

    Pearson's product-moment correlation

data:  phi_authors_df$code and phi_authors_df$date
t = 16.996, df = 279, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.6504864 0.7662757
sample estimates:
      cor 
0.7132127 

Cette corrélation entre ces deux variables, identifiant et date, paraît statistiquement vérifiée.

Regardons de plus près la séquence de 0 à 3000.

tmp_phi_3000 <-
  phi_authors_df %>%
  filter(code < 3000)
cor.test(tmp_phi_3000$code, tmp_phi_3000$date)

    Pearson's product-moment correlation

data:  tmp_phi_3000$code and tmp_phi_3000$date
t = 29.618, df = 278, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8399880 0.8970016
sample estimates:
      cor 
0.8714067 

La corrélation paraît encore plus forte pour les identifiants inférieurs à 3000. Essayons de modéliser une relation linéaire.

#' Make a linear model, print its infos and components, and plot its equivalent.
#' rq: Here we use `tibble()`, to make quosures work.
#' There may be a neater way.
#' rq: We need to explicitly return things to be printed,
#' otherwise only a table at the end of the function will be printed.
#' Thus, we then need to 'hide' chunk results to avoid printing of raw console output.
#' @see https://stackoverflow.com/questions/42024921/why-does-kable-not-print-when-used-within-a-function-in-rmarkdown
#' @param var String of the variable name to test in the linear model.
#' @param var_strin String to display in the plot name.
#' @return Things to print.
phi_display_lm <- function(var, var_str) {
  data_df <- tmp_phi_3000
  lm_df <-
    tibble(
      lm_components = broom::tidy(lm(code ~ !!sym(var), data_df)),
      lm_infos = broom::glance(lm(code ~ !!sym(var), data_df))
    )
  lm_comps_print <- lm_df %>% pull(lm_components) %>% knit_print()
  lm_infos_print <- lm_df %>% pull(lm_infos) %>% slice_head() %>% knit_print()
  lm_plot <- data_df %>%
    ggplot(aes(x = code, y = !!sym(var))) +
    geom_point() +
    geom_smooth(method = "lm") +
    scale_y_continuous(
      limits = c(-500, 600),
      breaks = seq(-500, 600, by = 100)
    ) +
    labs(title = paste0("Identifiants PHI et ",var_str))
  return(list(
    lm_comps_print,
    lm_infos_print,
    lm_plot
  ))
}
phi_display_lm("date", "dates d'activité")

En y regardant de plus près on voit bien, sur les identifiants entre 0 et 3000, une corrélation linéaire significative sans ambiguïté (\(p\mbox{-}valeur \lll 0.001\)) entre la valeur de l’identifiant et la date, ou le siècle, d’activité : un simple modèle linéaire (\(code_{i} = \beta_{0} + \beta_{1} \times date_{i} + \epsilon_{i}\)) explique ainsi les trois quarts de la variance (\(R^{2} \approx 0.76\)).

Rappelons que nous avons ici utilisé une seule des trois dates qui étaient à notre disposition : voyons la manière dont se distribuent les deux autres.

phi_display_lm("date_begin", "dates de commencement")

phi_display_lm("date_end", "dates de fin")

À partir des seuls calculs statistiques, il ne paraît pas évident de tirer des conclusions. En revanche, du point de vue de l’analyse graphique, les dates de “fin” semblent, au moins autour de l’identifiant 500, former un carré comme si les auteurs morts au cours du premier siècle avant notre ère faisaient tous, ou presque, partie d’une même catégorie. On pourrait encore affiner les analyses de cette catégorisation, sans oublier que les données manquantes sont plus nombreuses pour les dates de “fin” ou de “début” que la date plus générale d’activité (voir la section “Données finales”).

remove(tmp_phi_3000)

Analyses en trois dimensions

D’autres variables interviennent-elles dans la numérotation des codes ? En sus des dates, nous allons examiner trois autres variables : l’initiale du nom – en croisant donc la question de l’ordre alphabétique que nous avons déjà évoquée –, le genre littéraire, ainsi que le lieu. Ces variables seront exprimées par des couleurs.

Les couleurs par défaut de ggplot étant plutôt fades et peu différenciées, rendant la lecture difficile, nous créerons également une palette passant graduellement du rouge au bleu, en passant respectivement par l’orangé, le jaune et le vert (il faut compter près de 26 lettres).

# Création d'une palette de couleurs de type rosace,
# en jouant sur les codes #RRVVBB, chaque chiffre de 0 à F.
couleurs <- c(
  "#990000", "#cc0000", "#ff0000", "#ff3300",
  "#ff6600", "#ff9900", "#ffcc00", "#ffff00",
  "#ccff00", "#99ff00", "#66ff00", "#33ff00",
  "#00ff00", "#00ff33", "#00ff66", "#00ff99",
  "#00ffbb", "#00ffff", "#00ccff", "#0099ff",
  "#0066ff", "#0033ff", "#0000ff", "#0000cc",
  "#000099"
)

2.3. Identifiants, dates et initiales

Nous reprenons les deux graphiques précédents projetant les identifiants selon les dates (TLG et PHI), en colorant cette fois les points selon les initiales des auteurs.


Auteurs grecs

ggplot(tlg_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants TLG, dates et initiales")

De longs traits verticaux de couleurs apparaissent, mais un cadrage est à réaliser, notamment pour les codes entre 1150 et 1800.

ggplot(tlg_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(1150, 1800) +
  ylim(-750, 500) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants TLG, dates et initiales (1150-1800)")

Il apparaît clairement que les numéros de code entre 1150 et 1800 suivent les initiales du noms des auteurs grecs. Le graphique suivant examine les codes entre 1800 et 2500. En revanche, la date paraît ne jouer aucune importance : on retrouve, pour chaque même date, des auteurs tout le long de la séquence d’identifiants considérée.

ggplot(tlg_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(1800, 2500) +
  ylim(-750, 500) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants TLG, dates et initiales (1800-2500)")

L’observation qui s’applique entre 1150 et 1800 ne se retrouve pas entre 1800 et 2500, même si l’on retrouve quelques lignes ascendantes, peut-être fortuites.

Observons désormais les autres séquences que nous avions distinguées lorsque nous avons projeté les identifiants en fonction des noms.

#' Plot code by date and init,
#' for a sequence between two given values,
#' from `phi_authors_df_nopr`.
#' @param start Number. Code to start with
#' @param end Number. Code to end with.
tlg_plot_code_date_init_seq <- function(start, end) {
  tlg_authors_df %>%
    filter(code >= start, code <= end) %>%
    drop_na(date, init) %>%
    ggplot(aes(x = code, y = date, color = init)) +
    geom_point() +
    #ylim(-600, 300) +
    scale_color_manual(values = couleurs) +
    labs(title = paste0("Identifiants TLG, dates et initiales (",start,"-",end,")"))
}
tlg_plot_code_date_init_seq(100, 200)

tlg_plot_code_date_init_seq(390, 550)

tlg_plot_code_date_init_seq(650, 750)

tlg_plot_code_date_init_seq(750, 1100)

Comme nous l’avions remarqué, il existe en effet une régularité. Néanmoins, les dates ne semblent jouer aucun rôle sur ces séquences, si ce n’est que chaque séquence s’étale plus ou moins dans le temps :

  • la séquence entre 100 et 200 s’étale de -400 à 250
  • la séquence entre 400 et 525 s’étale de -500 à -200 (c’est particulièrement ramassé)
  • la séquence entre 650 et 750 s’étale de -500 à 550
  • la séquence entre 750 et 1100 s’étale de -500 à 250
  • la séquence entre 1150 et 1800 s’étale de -700 à 500 (c’est particulièrement étendu)

Auteurs latins

On applique le principe des points de couleur selon l’initiale pour les auteurs latins.

# Auteurs latins.
ggplot(phi_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(0, 2500) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI, dates et initiales")

Si le code est corrélé à la date, ce qui apparaissait déjà plus haut, le nom ne semble avoir aucun rôle dans la numérotation.

Il nous avait néanmoins semblé que quelque chose comme une suite alphabétique pourrait bien apparaître au moins entre les identifiants 400 et 700. Restreignons donc l’observation plus spécifiquement à cette séquence. Étant donné que cette séquence fait apparaître des auteurs d’une période similaire – le premier siècle avant notre ère –, nous allons pour un instant revenir en deux dimensions en supprimant la variable date et ainsi mieux voir la répartition des noms.

ggplot(phi_authors_df, aes(x = code, y = fct_reorder(name, desc(name)), color = init)) +
  geom_point() +
  xlim(400, 750) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI et noms (400-750)", x = "code", y = "name")

Une ligne paraît vaguement se distinguer, mais de très nombreux auteurs semblent ne pas entrer dans cette logique. C’est possible car le nom qui apparaît dans notre tableau n’est pas conforme au nom utilisé dans la classification.

On remarque en effet que les noms tels que nous les avons récupérés commencent souvent par le “praenomen”. Il est facile d’ôter les prénoms représentés par une initiale suivie d’un point. On crée pour cela un tableau intermédiaire.

phi_authors_df_nopr <- phi_authors_df
phi_authors_df_nopr$name <- gsub("[A-Z][a-z]{0,2}\\. ", "", phi_authors_df_nopr$name)
phi_authors_df_nopr$init <- substring(phi_authors_df_nopr$name,1,1)

Un travail plus systématique aurait consisté à observer sur le site de PHI ce qui y est considéré comme étant le nom principal de chaque auteur (apparaissant en gras) pour garder celui-ci comme nom de référence. Il aurait été possible de récupérer ces données depuis internet par exemple avec la bibliothèque rvest.

Pour l’heure, nous nous contenterons de cette première mise en forme.

ggplot(phi_authors_df_nopr, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(0, 2500) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI, dates et initiales (sans praenomen)")

Il est difficile de distinguer les choses à ce niveau. De nouveau, revenons à une représentation en deux dimensions en supprimant la variable “date”, puis nous nous focaliserons sur certaines séquences, chacune correspondant à une période.

phi_authors_df_nopr %>%
  filter(code < 2500) %>%
  drop_na(name, init) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = init)) +
  geom_point() +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI et noms (sans praenomen)", x = "code", y = "name")

Des lignes apparaissent effectivement bien clairement ! Regardons les séquences de plus près.

#' Plot code by name,
#' for a sequence between two given values,
#' from `phi_authors_df_nopr`.
#' @param start Number. Code to start with
#' @param end Number. Code to end with.
phi_plot_code_name_seq <- function(start, end) {
  phi_authors_df_nopr %>%
    filter(code >= start, code <= end) %>%
    drop_na(name, init) %>%
    ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = init)) +
    geom_point() +
    scale_color_manual(values = couleurs) +
    labs(
      title = paste0("Identifiants PHI et noms (sans praenomen, ",start,"-",end,")"),
      x = "code",
      y = "name"
    ) +
    theme(axis.text.y = element_blank())
}
phi_plot_code_name_seq(0, 200)

phi_plot_code_name_seq(400, 750)

phi_plot_code_name_seq(750, 1200)

phi_plot_code_name_seq(1200, 1400)

Les tendances apparaissent bien avec clarté.

Une dernière manière de représenter ces tendances serait de colorer cette fois non plus les initiales mais les dates : on devrait observer que les différentes séquences sont chacune d’une teinte particulière.

phi_authors_df_nopr %>%
  filter(code < 2500) %>%
  drop_na(name, date) %>%
  ggplot(aes(code, fct_reorder(name, desc(name)), color = date)) +
  geom_point() +
  labs(title = "Identifiants PHI, noms et dates", y = "name") +
  scale_color_gradientn(colors = couleurs) +
  theme(axis.text.y = element_blank())

C’est effectivement ce que l’on observe !

Il semblerait donc que les auteurs latins soient, dans la classification PHI, rangés d’abord par date, et ensuite de manière secondaire, sur chaque période, par ordre alphabétique du nom.

Le nom ne commence alors manifestement pas par le praenomen. Les points aberrants par rapport aux droites qui se dessinent sont vraisemblablement des auteurs pour lesquels le nom que nous avons dans notre tableau ne correspond pas au nom utilisé lors de l’attribution de l’identifiant.

Pour distinguer plus clairement les périodes, nous devrions faire des recherches supplémentaires, afin de savoir précisément selon quel(s) critère(s) certains auteurs sont rattachés à une période et non à la précédente ou à la suivante : s’agit-il du siècle correspondant à la date de naissance ? à la date de mort ? à la période principale de production littéraire ? Ou est-ce un découpage d’un autre ordre, selon des périodes historiques ? Il faudrait pour cela délimiter précisément les séquences – ceci fait, on pourrait s’intéresser aux auteurs situés à leurs extrémités, afin de saisir ce qui fait passer d’une séquence à une autre. La première analyse conduite dans la section “Les identifiants par les dates” inciterait à nous pencher sur le siècle de la date de mort.

Il faut enfin noter que, comme nous l’avons déjà relevé pour les auteurs grecs (voir la section “Les identifiants par les noms”), il existe de nouveau des “trous” dans les séquences ; ces “sauts” dans la numérotation demeurent difficiles à élucider avec les seules données ici à notre disposition.

2.4. Identifiants et genres

Pour les auteurs grecs, la logique de classification nous demeure peu claire. Si certaines séries alphabétiques apparaissent, on ne sait pas pourquoi elles apparaissent dans cet ordre-là, et il existe également des séquences entières qui semblent ne pas correspondre à l’ordre alphabétique ni à l’ordre chronologique.

Essayons donc de chercher une logique, ou des logiques, à partir des genres littéraires.

tlg_authors_df %>%
  filter(code < 5000) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_point() +
  labs(title = "Identifiants TLG et genres littéraires", y = "genre")

Un premier graphique en deux dimensions ne donne pas grand-chose : à première vue, chaque genre peut se répartir tout du long de la numérotation.

Supprimons les genres contenant moins de dix auteurs pour y voir plus clair.

tlg_authors_df %>%
  filter(code < 5000) %>%
  group_by(genre) %>%
  mutate(genre_n = n()) %>%
  ungroup() %>%
  filter(genre_n > 10) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_point() +
  labs(title = "Identifiants TLG et genres littéraires (plus de dix auteurs)", y = "genre")

À la rigueur, on peut relever que les orateurs sont concentrés au début de la numérotation, et les “Poetae” autour de 2600.

Néanmoins, on a sur ce graphique du mal à distinguer la densité des identifiants et leurs regroupements. Par exemple, on a du mal à faire la différence entre les petites masses très denses et les points uniques ou presque, et on peine à appréhender à quel point certaines lignes sont continues ou non. Ajustons les paramètres graphiques pour discerner les choses plus facilement.

tlg_authors_df %>%
  filter(code < 5000) %>%
  group_by(genre) %>%
  mutate(genre_n = n()) %>%
  ungroup() %>%
  filter(genre_n > 10) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_jitter(alpha = 0.2, shape = 16, width = 0, height = 0.2) +
  labs(title = "Identifiants TLG et genres littéraires (plus de dix auteurs)", y = "genre")

Désormais, le graphique est bien plus lisible : on observe des ajouts “par grappe”, en particulier pour les “Comici”, “Tragici”, “Elegiaci”, et également pour les “Geographi”, “Lyrici/-ae”, “Medici”, “Oratores”, “Poetae”, “Rhetorici”, …

Jetons également un œil aux genres mis de côté, à savoir ceux qui contiennent dix auteurs ou moins.

tlg_authors_df %>%
  filter(code < 5000) %>%
  group_by(genre) %>%
  mutate(genre_n = n()) %>%
  ungroup() %>%
  filter(genre_n <= 10) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_jitter(alpha = 0.3, shape = 16, width = 0, height = 0.1) +
  labs(title = "Identifiants TLG et genres littéraires (dix auteurs et moins)", y = "genre")

On observe des petits regroupements, qui ne sont pas systématiques : des “Paradoxographi” surtout, des “Bucolici” également, des “Doxographi”, peut-être aussi des “Mythographi”…

Essayons désormais des analyses en trois dimensions, en couleurs.

length(unique(tlg_authors_df$genre))
[1] 53

On trouve 52 genres (53, auquel on retire le genre “NA”) dans le fichier des auteurs TLG, qu’il est difficile de représenter clairement en couleurs. Nous gardons huit genres parmi les plus représentés. Ceci est une démarche exploratoire : l’idéal serait évidemment de produire plusieurs graphiques ; rappelons en outre, comme il est expliqué plus haut, que lorsque plusieurs genres s’appliquent à un auteur, nous avons gardé le premier apparaissant par ordre alphabétique.

count_tlg_genre <-
  tlg_authors_df %>%
  count(genre, sort = TRUE)
knit_print(count_tlg_genre[1:11,])

De cette liste, nous avons éliminé les “Historici/-ae” trop dispersés apportant de la confusion dans la lecture, et les “Scriptores Ecclesiastici”, assez dispersés également, même s’ils n’apparaissent que tardivement.

# On applique 8 genres avec une sélection de couleurs
tlg_authors_df %>%
  filter(genre %in% c(
    "Philosophici/-ae", "Comici", "Tragici", "Grammatici",
    "Epici/-ae", "Lyrici/-ae", "Rhetorici", "Medici"
  )) %>%
  ggplot(aes(x = code, y = date, color = genre)) +
  geom_point() +
  xlim(0, 2800) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, dates et genres littéraires")

De ce premier graphique, il apparaît que les philosophes sont dispersés, mais restent en dehors de la zone des comiques et des tragiques. Nous observons aussi un longue ligne verticale représentant les médecins. Cette observation est plus parlante si nous ne gardons plus que ces quatre derniers genres.

tlg_authors_df %>%
  filter(genre %in% c(
    "Philosophici/-ae", "Comici", "Tragici", "Medici"
  )) %>%
  ggplot(aes(x = code, y = date, color = genre)) +
  geom_point() +
  xlim(0, 2800) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs[c(1, 6, 15, 25)]) +
  labs(title = "Identifiants TLG, dates et quatre genres")

Il est curieux de constater que la comédie semble encadrée par la tragédie.

# Zoom sur les identifiants des comiques, médecins et tragiques.
tlg_authors_df %>%
  filter(genre %in% c("Comici", "Tragici", "Medici")) %>%
  ggplot(aes(x = code, y = date, color = genre)) +
  geom_point() +
  xlim(0, 2000) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs[c(1, 6, 25)]) +
  labs(title = "Identifiants TLG, dates et trois genres")

En fait, on observe que les comiques regroupés de la sorte correspondent à la séquence que nous avions relevé, entre ~390 et ~520, dans notre première analyse (voir la section “Les identifiants par les noms”).

tlg_authors_df %>%
  filter(genre %in% c("Comici", "Tragici", "Medici")) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 1000) +
  scale_color_manual(values = couleurs[c(1, 6, 25)]) +
  labs(title = "Identifiants TLG, noms et trois genres", y = "name")

On voit clairement apparaître les comiques rangés par ordre alphabétique ! Si une ligne verticale apparaît avec les tragiques, entre ~260 et ~380, voire entre ~620 et ~750 pour les médecins, ces deux catégories paraissent néanmoins ne pas être rangées par ordre alphabétique.

Tentons une dernière série de graphiques, représentant les identifiants en fonction des noms, avec les genres en couleurs.

tmp_tlg_authors_genres <-
  tlg_authors_df %>%
  drop_na(genre) %>%
  count(genre) %>%
  arrange(desc(n)) %>%
  pull(genre)

tlg_authors_df %>%
  filter(genre %in% tmp_tlg_authors_genres[0:8]) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 5000) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, noms et genres littéraires (série 1)", y = "name") +
  theme(axis.text.y = element_blank())

tlg_authors_df %>%
  filter(genre %in% tmp_tlg_authors_genres[9:16]) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 5000) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, noms et genres littéraires (série 2)", y = "name") +
  theme(axis.text.y = element_blank())

tlg_authors_df %>%
  filter(genre %in% tmp_tlg_authors_genres[17:24]) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 5000) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, noms et genres littéraires (série 3)", y = "name") +
  theme(axis.text.y = element_blank())

remove(tmp_tlg_authors_genres)

Rien d’extrêmement clair ne se distingue, en sus de ce que nous avons remarqué auparavant, si ce n’est éventuellement un groupement de poètes lyriques autour de 250 (série 2), et de “Poetae” autour de 2600 (série 3), mais qui ne paraissent pas classés par ordre alphabétique.

Il faudrait regarder les choses plus en détail, et éventuellement modifier ou compléter nos données de départ : rappelons que pour un grand nombre d’auteurs, les genres, récupérés du CLTK, nous sont manquants. De même, les dates retenues pourraient être imprécises, ou les noms pourraient être différents de ceux retenus au moment de la classification – voire, pour être plus précis, les noms pourraient, sans être totalement différents, être indexés à une initiale distincte de la première lettre apparaissant dans le nom dont nous disposons.

2.5. Identifiants et lieux

Pour la classification PHI, l’essentiel paraît expliqué – il ne resterait qu’à déterminer plus précisément les frontières des périodes considérées, ainsi que les noms utilisés, et éventuellement, la raison des “trous” dans la numérotation.

Il ne nous reste plus qu’à essayer d’expliquer, pour la classification TLG, d’une part l’ordre des séquences, d’autre part certaines séquences particulières, dont pour certaines aucune logique claire n’est apparue jusque-là. Pour l’ordre des séquences entre elles, la logique paraît difficile à élucider par la confrontation des variables à notre disposition. Pour ce qui est des portions inexpliquées, intéressons-nous en particulier aux identifiants au-delà de 1800, qui ne suivaient vraisemblablement pas la logique alphabétique.

Tentons donc d’observer si les lieux pourraient jouer un rôle dans l’attribution des identifiants numérotés à partir de 1800.

tlg_authors_df %>%
  filter(code > 1800 & code < 5000) %>%
  drop_na(place) %>%
  ggplot(aes(x = code, y = fct_reorder(place, desc(place)), color = place)) +
  geom_point() +
  scale_color_manual(values = c(couleurs, "#000000", "#000000")) +
  labs(title = "Identifiants TLG et lieux (1800-5000)", y = "place")

Rien d’évident ne se dégage de ce premier graphique : un même lieu se répartit souvent tout au long de la numérotation. Essayons de croiser avec les dates pour distinguer des tendances.

Comme la colonne “place” contient 47 lieux différents, cela ne sera pas lisible si nous attribuons une couleur à chacun d’eux. Nous allons déterminer les lieux qui apparaissent le plus fréquemment, pour les codes 1800 et plus.

count_tlg_place <-
  tlg_authors_df %>%
  filter(code > 1800) %>%
  count(place, sort = TRUE)
knit_print(count_tlg_place[1:11,])

Comme nous l’avons fait pour les genres, nous gardons les 8 pays pour lesquels nous observons le plus d’occurrences (ici, au moins 7 occurrences, en choisissant arbitrairement Chypre plutôt que la Libye qui sont ex aequo).

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy",
    "Syria", "Israel", "Palestine", "Cyprus"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(1800, 5000) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, dates et lieux (1800-5000)")

On observe plusieurs lignes verticales représentant des auteurs de Turquie : l’une vers le code 2750, concerne des auteurs d’environ 1200 à environ 1400; l’autre dans les codes 3000 concerne des auteurs de 800 à 1500 ; il semble également y avoir des lignes concernant des auteurs d’Égypte. Comme il est difficile de lire ce graphique, nous éliminons les lieux pour lesquels nous constatons moins de 30 occurrences, et nous allons diviser les graphiques en tranches de codes, à partir des observations du tableau en deux dimensions “Identifiants TLG et noms (0-5000)”, figurant dans la section “Les identifiants par les noms”. On y voyait des concentrations de points qui ne formaient pas de lignes, pour les codes 1800 à 3000 et 4000 à 4400.

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(1800, 3000) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (1800-3000)")

Il semblerait que plusieurs lignes se dessinent de manière éparse. De nouveaux zooms sont nécessaires.

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(1800, 2100) +
  ylim(-350, 750) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (1800-2100)")

Quelques débuts de lignes apparaissent vers 1950, mais il est difficile d’établir une corrélation entre codes et lieux. La ligne rouge horizontale apparaissant est probablement davantage liée à la date qu’au lieu : lieux et périodes de production d’écrits grecs sont souvent liés.

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(2100, 2300) +
  ylim(-350, 750) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (2100-2300)")

Nous constatons des agrégats de points de même couleur, mais il est difficile d’en tirer des conclusions, d’autant plus qu’il manque beaucoup de lieux dont les points de couleurs auraient apporté davantage de bruit.

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(2700, 3300) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (2700-3300)")

Cette portion a pour caractéristique de concerner presque exclusivement la Turquie, du moins pour les zones retenues.

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy",
    "Syria", "Israel", "Palestine", "Cyprus"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(2700, 3300) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, dates et 8 lieux (2700-3300)")

Cela semble se confirmer lorsque nous élargissons cette observation aux huit pays les plus importants de la tranche 1800 et plus. Cependant, une recherche élargie à tous les lieux permettrait peut-être d’apporter une conclusion. Malheureusement, elle est impossible avec la pléthore des 52 couleurs, surtout que ggpplot les détermine selon l’ordre alphabétique et non selon la proximité géographique.

tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(4000, 4400) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (4000-4400)")

Rien de significatif ne semble émerger de cette tranche.

Rien de très conclusif n’apparaît de cette recherche sur les lieux des auteurs en rapport avec le code TLG au delà de 1800.

Conclusion

Après cette exploration, nous pouvons conclure plusieurs choses – conclusions qui pourraient être précisées et enrichies à de nombreux égards.

Synthèse des résultats

Comme nous l’avions pressenti devant le caractère non-évident de la numérotation, nous avons établi que l’attribution des identifiants ne recouvre par une logique uniforme, mais obéit à une pluralités de facteurs. À cet égard, l’emploi d’analyses graphiques s’est révélé particulièrement fécond. Nous avons de plus pu établir l’existence de séquences spécifiques, possédant parfois chacune une logique propre.

Dans le cas du code PHI des textes latins du projet Perseus, un premier découpage est chronologique, le code étant proportionnel aux dates de chaque auteur, et le second, au sein de chaque période ainsi définie, est alphabétique. Le détail des dates retenues pour la classification, ainsi que du terme sur lequel se fonde la classification alphabétique, pourrait être affiné – du moins avons-nous établi que l’indexation alphabétique ne s’appuyait pas sur le praenomen. Ces deux logiques semblent recouvrir de manière homogène l’ensemble de la numérotation, les points aberrants appelant à être étudiés au cas par cas, par exemple pour vérifier le nom employé.

Les identifiants du Thesaurus Linguae Graecae, plus nombreux, suivent des règles davantage complexes. On y aperçoit plusieurs séquences, pour certaines desquelles nous sommes parvenus à restituer la logique. Nous avons ainsi discerné quatre séquences ordonnées par ordre alphabétique, dont l’une correspond aux auteurs comiques. D’autres regroupements se font également par genre littéraire, par exemple pour les auteurs tragiques ou les médecins, avec un classement interne ne suivant pas l’ordre alphabétique. D’autres partie de la numérotation nous sont en revanche restées obscures. Nos analyses exploratoires n’ont notamment pas permis de discerner de classification par lieu.

Pistes pour exploration ultérieure

Nous sommes ainsi parvenus à défricher le terrain et à établir certaines lignes de force guidant la numérotation des identifiants classiques considérés. Les explications au demeurant peuvent encore être précisées. Le présent travail pourrait ainsi aisément être complété, en partant des données mises au propres que nous avons établies, y adjoignant des variables ou en raffinant celles existantes, et en employant des méthodes d’analyse similaires, éventuellement éclairé par des saillies plus individuelles sur les tableaux et leurs éléments. De nombreuses pistes se sont en effet présentées à nous, sans qu’il nous ait été possible de tout à fait les explorer dans le temps qui nous était imparti.

Raffinement des variables existantes

Comme nous l’avons fait remarquer au cours de notre étude, plusieurs des variables que nous avons employé présentent des aspérités qu’il serait possible d’arrondir.

Pour ce qui est des noms, nous avons vu que le terme employé pour l’indexation alphabétique était d’importance : récupérer plus proprement les noms de références des auteurs latins aurait vraisemblablement permis d’affermir les résultats. Il en va de même pour les auteurs grecs : un problème similaire pourrait expliquer certains des points aberrants que l’on a pu retrouver dans les graphiques concernés.

Pour les dates, il aurait également été possible de mener des analyses complémentaires, en particulier pour clarifier précisément le découpage de la classification PHI, avec les données établies ou des données supplémentaires, pour déterminer exactement si le découpage se faisait en fonction de la date de naissance, la date de mort, ou d’une autre date qui pourrait par exemple correspondre à celle d’une œuvre particulière.

En ce qui concerne les genres, les données auraient pu être complétées : pour les auteurs grecs notamment, il aurait été possible de récupérer l’information directement depuis la variable “nom”, en sus des données du CLTK. Rappelons également que nous avons retenu arbitrairement un seul genre lorsqu’à un identifiant y correspondait plusieurs – il aurait été possible de dupliquer les lignes concernées pour faire apparaître l’identifiant à chaque endroit de ces genre multiples, et le cas échéant de déterminer à quel genre l’auteur était indexé pour déterminer son identifiant.

Pour les lieux, nous ne nous sommes penchés que sur ceux qui comportaient le plus d’occurrences pour les tranches d’identifiants étudiées. Nous aurions pu grouper les lieux par régions géographiques ou au contraire prendre en compte les villes lorsqu’elles étaient précisées et placer les identifiants en dégradés de couleurs sur une carte géographique. De même, nous rappelons que nous n’avons arbitrairement retenu qu’un seul lieu lorsque plusieurs figuraient pour un auteur unique.

Adjonction de variables connexes

Les caractéristiques sur lesquelles nous avons fondé nos analyses sont propres aux auteurs considérés – la date de mort par exemple est bien propre à l’auteur en tant que personne. Néanmoins, ce biais pourrait ne pas correspondre tout à fait à la construction des corpus étudiés : il semblerait qu’un identifiant soit parfois attribué à un sous-ensemble d’œuvres particulier, comme nous l’avons relevé pour les correspondances éspitolaires. Il se pourrait alors que les identifiants dépendent de traits propres à ces œuvres – par exemple, le nombre d’œuvres associées à cet identifiant, ou leur longueur. La constitution d’une base de données connexes comprenant les œuvres répertoriées pourrait à cet égard se montrer utile.

Un autre trait fondamental pour un classiciste, pouvant alors entrer en ligne de compte, serait celui de la canonicité. En effet, certains auteurs considérés comme canons apparaissent dans la tradition comme plus importants que d’autres. Les équipes ayant pris en charge la numérisation des œuvres du TLG et du catalogue Perseus ont pu ainsi procéder en priorité à l’inventaire des auteurs jugés les plus importants, apparaissant alors vraisemblablement au début de la classification. Si cette dimension n’est pas aisément formalisable ou quantifiable, elle est à considérer, et un œil connaisseur de la tradition pourrait la discerner sur les premières centaines d’identifiants du TLG notamment – les corpus canons étant souvent ceux les mieux conservés, fréquemment étudiés dans le cadre scolaire, à la postérité culturellement importante, plus souvent d’époque classique, ou compilant de précieux fragments d’œuvres perdues.

Croisant ces deux dimensions, la question de manuscrits pourrait également importer. En effet, tous les ouvrages numérisés dans le TLG ou Perseus naissent d’une tradition, directe ou indirecte. Pour une même œuvre, il peut donc y avoir plusieurs manuscrits. Peut-être ces manuscrits similaires mais différents ont-ils donné lieu à des schémas d’attributions d’identifiants spécifiques, ou peut-être certains pans de la numérotation dépendent de cette logique propre aux sources, pouvant par exemple regrouper des textes provenant d’un même recueil de fragments, d’autant plus pour les corpus vraisemblablement très lacunaires désignés par certains identifiants. La prise en compte de la taille de chaque corpus pourrait alors à cet égard être éclairante.

Méthodologies complémentaires

Pistes ethnographiques

Ces dernières remarques nous renvoient à l’histoire de la constitution des corpus, et plus spécifiquement des bases de données que sont le TLG et Perseus. Ces plateformes ont connu différentes phases de développement, vraisemblablement soumis au gré des financements, des campagnes de numérisation, des priorités du moment, ce qui influence certainement la numérotation des auteurs, et pourrait en particulier expliquer les différentes séquences que nous avons aperçues pour le TLG. Tous les auteurs, toutes les œuvres n’ont pas été numérisées en une seule fois. Le TLG en donne d’ailleurs un aperçu sur la page d’accueil de son site internet de l’évolution des documents numérisés. Les ajouts successifs sont très réguliers, appellant à chaque fois attribution d’une nouvel identifiant.

Des matériaux ethnographiques, comme des archives et des témoignages, plus proche de méthodes classiques d’investigation historique, apporteraient à cet endroit des éclairages utiles quant à l’histoire de la constitution de ces classifications. À cet égard, certaines sources bibliographiques pourraient vraisemblablement compléter l’analyse. On pourrait notamment se référer à Berkowitz Luci, “Ancilla to the Thesaurus Linguae Graecae : The TLG Canon” (in Jon Solomon (éd.), Accessing Antiquity. The Computerization of Classical Studies (p. 34-61), University of Arizona Press, Tucson, 1993), chapitre d’ouvrage donnant des précisions intéressantes quant au rôle qu’a joué l’American Philological Association, un de ses comités ayant sélectionné les textes à inclure dans le Thesaurus Linguae Graecae.

Pistes informatiques

En restant dans l’analyse numérique, il existe également des pistes et méthodes que nous n’avons pas explorées.

Notamment, les identifiants pourraient être par endroit être composés de plusieurs facteurs, justapoxé pour donner le nombre qui sert d’identifiant. Par exemple, les deux premiers chiffres pourraient correspondre à une variable, et les deux suivants à une autre – ces deux chiffres seraient ensuite adjoints pour donner un identifiant à quatre chiffres. Cette hypothèse, encore à explorer, pourrait contribuer à expliquer les sauts de numérotation, voire les séquences jusque là incomprises.

Nous nous sommes de plus limités, sur le plan de l’analyse statistique, principalement à des graphiques en deux ou trois dimensions. Il aurait par exemple été possible, pour faire apparaître sur une seule image une multiplicité de variables et n’en rien rater, de réalisation par exemple des analyses par correspondances multiples (ACP).

Annexes

Explorations subsidiaires

Nous consignons ici quelques analyses supplémentaires, non peaufinées et non intégrées à notre démonstration. Nous ne les commenterons pas mais les laissons à la curiosité du lecteur.

Récupération des hononymes

#' Get hononyms.
#' @param df Dataframe of authors.
#' @return Dataframe of authors who have hononyms.
get_homonyms_df <- function(df) {
  res_df <-
    df %>%
    count(name, name = "name_n") %>%
    filter(name_n > 1) %>%
    inner_join(df, by = "name") %>%
    relocate(name, name_n, .after = init)
  return(res_df)
}
get_homonyms_df(tlg_authors_df)
# We can observe 217 hononyms in `tlg_authors_df`.
# Aeschylus (5th BCE) appears both with code 85 and 885.
# Xenophon (4th BCE) appears both with code 32 and 1754.
get_homonyms_df(phi_authors_df)
# We can observe 12 honomnyms in `phi_authors_df` (those last are only n/a).

Explorations subsidiaires des données

tlg_authors_df %>% filter(str_detect(name, "(?i)epistul"))
tlg_authors_df %>% filter(str_detect(name, "(?i)anonym"))
tlg_authors_df %>% filter(str_detect(name, "(?i)paradox"))

Analyse de correspondances principales

pacman::p_load(FactoMineR, dummy)

# TODO: Code `init` into one numeric variable, from 1 to 26.

#' Format an authors dataframe
#' so it can be send to the `PCA()` function.
#' @param df Dataframe to format.
#' @param genre Boolean indicating if "genre" is present in the df.
format_to_pca_df <- function(df, genre = TRUE) {
  res_df <-
    df %>%
    # Drop useless variables and NA
    select(-name, -date_active, -date_active_str, -date_begin_str, -date_end_str) %>%
    drop_na() %>%
    # Dichotomize qualitative variables,
    # to transform them into quantitative ones.
    # It is inspired by the method used in logistic regression.
    mutate(dummy(tibble(place))) %>%
    mutate(dummy(tibble(init))) %>%
    select(-init, -place)
  if (genre) {
    res_df <- res_df %>% 
      mutate(dummy(tibble(genre))) %>%
      select(-genre)
  }
  res_df <- res_df %>%
    mutate_all(as.numeric)
  return(res_df)
}

phi_pca_df <- format_to_pca_df(phi_authors_df, genre = FALSE)
phi_pca <- PCA(phi_pca_df)

tlg_pca_df <- format_to_pca_df(tlg_authors_df)
tlg_pca <- PCA(tlg_pca_df)

# A correlation between `code` and `date` seems to appear.
# Those are the variables that differenciate the most individuals.
# Initials seem to have no correlation with those two,
# and to characterize the most the second dimension.

Code de démonstration

Sélection dans un tableau

tmp <-
  tlg_authors_df %>%
  # Select columns
  select(name, code, date_active) %>%
  # Drop missing values
  drop_na(date_active)

Notice de spécifications techniques, pour expliciter l’environnement de développement utilisé

#' A list of loaded packages, with their respective versions.
#' @return str
packages_str <- function() {
  packages <- pacman::p_loaded() %>% sort()
  package_str_v <- packages %>%
    map(~ paste0("- ",.," v",pacman::p_version(.)))
  str <- paste(package_str_v, collapse = "\n")
  return(str)
}

#' A technical notice
#' @details Display:
#'   - exact date of document generation
#'   - OS used
#'   - R version used
#'   - Packages loaded with their version  
#' Use in the text body of the `.rmd` document
#' with `r technical_notice_str()`.
#' @return str
technical_notice_str <- function() {
  return(paste0(
"Le présent document a été généré le ",format(Sys.time(), "%d %b %Y à %X")," sous ",str_to_title(.Platform$OS.type)," avec les ressources suivantes :

- ",R.version.string,"

*Bibliothèques externes*

",packages_str()
  ))
}

Module d’exportation

write_csv(phi_authors_df, here("projet_final/output/phi_authors_df.csv"))
write_csv(tlg_authors_df, here("projet_final/output/tlg_authors_df.csv"))

Références

Ressources externes

  • Perseus Project, “Authors-Abbreviation-Editions”, Tableur en ligne (lien).

  • Classical Langage ToolKit, “Author-Epithet”, Fichier .json (lien).

  • Internet et ses innombrables ressources pour apprendre et répondre aux problèmes techniques rencontrés.

Environnement de développement

Le présent document a été généré le 12 déc. 2021 à 15:06:05 sous Windows avec les ressources suivantes :

  • R version 4.0.3 (2020-10-10)

Bibliothèques externes

  • dplyr v1.0.7
  • dummy v0.1.3
  • FactoMineR v2.4
  • forcats v0.5.1
  • ggplot2 v3.3.3
  • here v1.0.1
  • jsonlite v1.7.2
  • knitr v1.31
  • purrr v0.3.4
  • readr v2.1.0
  • skimr v2.1.2
  • stringr v1.4.0
  • tibble v3.1.6
  • tidyr v1.1.4
  • tidyverse v1.3.1

Historique des versions

v1.4-tristan.1

  • Corrections et ajustements divers
    • Corrections dans les formulations
    • Réécritures partielles notamment dans l’introduction et la conclusion
    • Considérations de mise en page
    • Expliciation du code de la notice technique
    • Remplacement de colour par color pour homogénéiser l’orthographe, en faveur de la plus courte
  • Ajouts divers
    • Explicitation supplémentaire quant au principe d’un tableau de données
    • Création d’une section “Analyse subsidiaire” et intégration d’une tentative d’ACP
    • Ajout de tests de corrélation (identifiant et date, cor.test())
    • Ajout d’une fonction pour ajuster l’affichage des vecteurs (print_vector())

v1.3 (2021-02-09T18:30)

  • Fusion des versions v1.3-florence, v1.3-nadine.2 et v1.3-tristan.

v1.3-tristan (2021-02-09T18:20)

  • Ajout de fonctions d’exploration (section “Code de démonstration”)

v1.3-nadine.2 (2021-02-09T12:51)

  • Correction de liens internes

v1.3-nadine.1 (2021-02-07T14:40)

  • Précisions sur les lieux et les noms d’auteurs dans “1. Formatage des données > Variables recherchées”
  • Correction de deux graphiques oubliés (ordre alphabétique)
  • Ajout d’un petit paragraphe sur les lieux dans “Conclusions > Les limites de notre méthode”

v1.3-florence (2021-02-08T12:33)

  • Ajouts de précision à la suite des commentaires d’Aurélien Berra
  • Relecture orthographique et grammaticale

v1.2 (2021-02-06T17:40)

  • Fusion des versions v1.2-nadine.4 et v1.2-tristan, qui consistent en un début de prise en compte des commentaires d’Aurélien Berra

v1.2-tristan (2021-02-06T15:20)

  • Analyses complémentaires
    • Ajout de deux graphiques quant aux premières analyses sur les genres
    • Ajout d’analyses par modèles linéaires pour préciser la corrélation entre identifiants et dates chez les latins
  • Changements mineurs
    • Clarification de la mesure des valeurs manquantes (na_p renommée na_rate et arrondie)
    • Précision sur la liste des équivalents à des valeurs manquantes
    • Précision sur les balises BCE/CE comme facteur commun
    • Correction manuelle pour TLG#0237 (Anacréon)
    • Corrections mineures

v1.2-nadine.4 (2021-02-06T17:13)

  • Corrections et suppression de certains commentaires sur les genres

v1.2-nadine.3 (2021-02-06T01:39)

  • Commentaires et corrections

v1.2-nadine.2 (2021-02-05T17:00)

  • Réintégration des modifications de la v1.1 (la v1.0 avait été prise comme origine de la v1.2-nadine.1)

v1.2-nadine.1 (2021-02-04T22:43)

  • Mise en ordre alphabétique dans le sens de la lecture (bas en haut) sur les graphiques, et corrections des interprétations en ce sens

v1.1 (2021-01-11T13:00)

  • Précisions et corrections dans l’introduction et la conclusion
  • Rendu en carnet (notebook), avec table des matières flottante

v1.0 (2021-01-11T01:29)

  • Intégration de l’introduction et de la conclusion
  • Dernières vérifications des commentaires
  • Vérifications typographiques

v0.14 (2021-01-10T22:50)

  • Ajout d’un emplacement pour la section “conclusion”
  • Suppression des éléments inutiles
  • Précisions à la fin de la section “démarche”
  • Précisions à la fin de la section “identifiants, dates et initiales” pour les latins
  • Précisions et ajouts au début et à la fin de la section “genres”
  • Précisions au début de la section “lieux”
  • Améliorations mineures

v0.13 (2021-01-10T14:00)

  • Corrections orthographiques
  • Ajout d’une analyse par lieux

v0.12 (2021-01-09T22:50)

v0.11 (2021-01-09T19:45)

  • Améliorations (pleins !)

v0.10 (2021-01-09T13:40)

  • Réintégration des versions intermédiaires de Nadine et Florence
Nom original Version correspondante
v0.5 (modifiée) / v0.6 v0.6
v0.5nad v0.7
v0.5Nad-7janv v0.8
v0.5Nad-8janv v0.9
  • Analyses graphiques
    • En deux dimensions : code et nom, code et date
    • En trois dimensions : code, date, genre
  • Nouveau tableau pour les latins en retirant les prénoms
  • Amélioration de la structure
  • Améliorations mineures par endroits
  • Rédaction partielle d’explications plus générales
  • Les balises “@!” indiquent que l’élément associé demande vérification voire suppression

v0.5 (2021-01-05T20:20)

  • Correction d’une erreur : les lignes n’étaient pas dégroupées après formatage des dates
  • Adjonction des genres
  • Déplacement de la colonne des codes au début pour clarté
  • Possibles autres changements mineurs

v0.4 (2021-01-05T16:40)

  • Formatage des lieux
  • Présentation convenable des variables conservées depuis le tableur Perseus
  • Corrections mineures diverses

v0.3 (2021-01-05T12:10)

  • Correction d’une erreur dans la récupération des codes (pour bien récupérer les auteurs dont le code est inférieur à 1000)
  • Utilisation de la moyenne plutôt que de la valeur de gauche, quand la date donnée est un intervalle (pour la transformer en nombre)
  • Changements anecdotiques
    • Ajout en annexes de codes de démonstration
    • Ajout en annexes d’un module d’exportation
    • Ajout en annexes de la liste des dépendances, générée dynamiquement
    • Ajout d’une section sur les possibles erreurs dans les dates des données récupérées
  • Changements mineurs
    • À l’intérieur de convert_dates(), renommage de is_before en is_bce
    • Suppression des valeurs manquantes pour la colonne code.
    • Corrections d’erreurs orthographiques dans la documentation

v0.2 (2020-12-31T15:40)

  • Complétion du formatage des dates
  • Ajout de remarques sur les dates et la bibliothèque lubridate
  • Correction d’erreurs ponctuelles dans les données

v0.1 (2020-12-31T12:50)

  • Structure générale du document
  • Configuration du fichier RMarkdown
  • Extraction de la liste des auteurs depuis le tableur du Projet Perseus
  • Début de formatage des dates
---
title: "Nomenclatures des corpus antiques"
author:
  - Hamard, Tristan
  - Lienhard, Florence
  - Rakofsky, Nadine
subtitle: Version 1.3+ – 2021-02-09
output:
  html_document:
    toc: yes
    toc_depth: '3'
    df_print: paged
  html_notebook:
    df_print: paged
    code_folding: show
    toc: yes
    toc_depth: 3
    toc_float:
      collapsed: no
  pdf_document:
    toc: yes
    toc_depth: '3'
editor_options:
  chunk_output_type: console
---

<!-- rmarkdown::render("projet_final\\analyse_identifiants_v1.4-tristan.1.rmd", "html_notebook") -->

**Projet collectif de fin de semestre pour le cours d'Aurélien Berra, "Humanités numériques 3", à l'Université Paris Nanterre, décembre 2020 – *[Publication en ligne](https://classnum.hypotheses.org/6037).***

*Si Aurélien Berra ne fait pas formellement partie de la liste des auteurs du présent document, ce travail n'aurait pas été possible sans lui : nous souhaitons lui adresser tous nos remerciements, non seulement pour ses cours qui nous ont initiés aux outils ici manipulés, pour son énoncé stimulant posant le problème auquel nous nous confrontons ici, mais encore pour sa disponibilité ainsi que ses nombreuses remarques, ressources et indications, prodiguées au cours de notre travail et suite à ses relectures très attentives. Nous avons tenté d'en tenir compte et d'intégrer ses apports autant que possible, si bien que ce travail est aussi un peu le sien.*

# Analyse de nomenclatures des corpus de littérature antique (TLG et PHI)

## Présentation

Le développement des humanités numériques s'est accompagné de l'émergence de plusieurs innovations renouvelant les pratiques des chercheurs en humanités classiques. La création de **bibliothèques interactives** en fait partie, à l'instar du [*Thesaurus Linguae Graecae*](http://stephanus.tlg.uci.edu/) (TLG) et de la [*Bibliothèque Numérique Perseus*](http://www.perseus.tufts.edu/hopper/). Les sites offrant l'accès à ces deux bibliothèques disposent d'un grand nombre de fonctionnalités, mobilisables sur un canon très large d'auteurs et d'œuvres – accessibles gratuitement pour Perseus, et sur abonnement pour le TLG. L'étude d'œuvres y est ainsi grandement facilité par la mise à disposition de plusieurs dictionnaires, de propositions d'analyse grammaticale, de mises en parallèle entre les œuvres sélectionnées, et même d'analyses statistiques.

Celui qui a déjà parcouru les rayons virtuels de ces bibliothèques – et plus encore celui qui aura tenté d'exploiter informatiquement ces données – aura peut-être relevé que chaque auteur, et chaque œuvre, y possède un **identifiant unique**. Toute base de données informatique appelle effectivement à doter chaque élément qui la composent d'un identifiant pour en permettre une manipulation aisée – l'identifiant, généralement suite de nombres, confère en effet à l'élément qu'il désigne une stabilité qui en facilite l'accès : quand bien même le contenu ou le titre de cet élément changerait, l'identifiant, lui, demeure.

Deux classifications servent de référence fréquente pour désigner les œuvres classiques et leurs auteurs : il s'agit des identifiants attribués par le **TLG**, pour les textes grecs, et par le *Packard Humanities Institute* (**PHI**) pour les textes latins. Dans les deux cas, l'identifiant est numérique et est composé de quatre chiffres : Homère, par exemple, est assigné à l'identifiant `0012` dans le TLG. L'identifiant d'une œuvre est alors composé de l'identifiant de son auteur suivi d'un point puis de plusieurs autres chiffres pour caractériser l'œuvre en question.

Pour autant, la documentation portant sur la constitution de ces identifiants est lacunaire, et un rapide coup d'œil aux identifiants du TLG ne permet pas d'en discerner la logique d'attribution : la numérotation ne  à première vue être ni alphabétique, ni chrnologique, ou en tout cas pas de manière univoque, et on remarque que les identifiants sont discontinus, certains manquants entre deux valeurs : on a bien Hésiode correspondant au `0020` et Nicandre au `0022`, mais en revanche aucun auteur au numéro 21. **On s'interroge alors sur la logique interne de ces identifiants** – à moins qu'ils ne soient qu'arbitraires...

Nous nous proposons donc de mener l'enquête. Au départ informatique, cette enquête est aussi historique : élucider la ou les logiques auxquelles ces identifiants pourraient obéir, c'est aussi informer les choix qui ont été faits lors de la constitution de ces bases de données. Une **analyse informatisée**, paraît particulièrement indiquée pour tenter de résoudre l'énigme qui se présente à nous, les identifiants en question étant numériques et se comptant par centaines pour la codification du PHI, par milliers pour celle du TLG. Les données à étudier présentent l'avantage d'être aisément accessibles – davantage que des matériaux d'archives ou le recueil de témoignages – et nous tenterons de croiser les identifiants non seulement avec les noms des auteurs concernés, mais aussi avec leurs dates, le ou les genres littéraires auxquels ils se rattachent, ainsi que leur lieu d'exercice.

Ainsi cette étude, que nous conduisons avec le [langage R](https://www.r-project.org/), langage [libre](https://www.gnu.org/licenses/old-licenses/gpl-2.0.html) d'analyse de données, apporte au praticien des humanités numériques à l'esprit curieux, et à la connaissance historique, un éclairage utile et une méthode originale. Nous procéderons tout d'abord à une mise en forme systématique des données que nous sommes parvenus à récupérer, pour pouvoir dans une seconde partie les soumettre à analyses graphiques, d'où nous tirerons plusieurs résultats synthétisés en conclusion.

Notez au passage que notre étude se concentre sur les identifiants des auteurs, laissant de côté la logique de numérotation des œuvres : à première vue, chaque auteur a une numérotation propre à ses œuvres (001, 002...), bien que celle-ci pourrait suivre des logiques transversales, par exemple une classification chronologique par date d'écriture. C'est tout ce que nous en dirons, car il nous paraît prioritaire dans cette investigation de commencer par nous focaliser sur les auteurs ; après tout, c'est leur identifiant est le premier apparaissant sur une œuvre (0012.001, 0012.002...). Analyser plus finement la logique de numérotation des œuvres appellerait à une étude spécifique qui demanderait de formater différemment les données à notre disposition : ceci pourrait faire l'objet d'un travail ultérieur.

## Démarche adoptée

Avant de nous atteler aux formatages et à l'exploration proprement dits, revenons un instant sur quelques grands principes méthodologiques qui guident notre investigation. Nous cherchons ici à expliquer une variable, à savoir un identifiant, par d'autres variables potentielles, comme le nom, la date, le lieu ou le genre littéraire.

Rappelons, pour clarifier les fondements de la terminologie que nous employons, qu'une "**variable**" est une caractéristique d'un élément considéré. Dans un tableau, les "variables" correspondent généralement aux colonnes, et les éléments considérés aux lignes. On peut aussi parler, pour les lignes, d'"observations", d'"entrées" ou d'"**individus**". Pour chaque individu, chaque variable prend une **valeur** ou une modalité particulière, c'est le "contenu" de la variable. Les modalités sont ainsi l'ensemble des valeurs que peuvent prendre une variable – plus précisément, on parle de "**modalité**" lorsque le nombre de valeurs possibles est fini. Par exemple, l'identifiant est une variable qui a une forme particulière, à savoir un numéro de 1 à 4 chiffres, et pour l'individu dénommé "Platon", la variable "identifiant" prend la valeur "0059" – la variable "genre littéraire" quant à elle, dont la liste des modalités est définie à l'avance, prend pour "Platon" la modalité "philosophie".

Schématiquement, tout ceci se présente sous cette forme :

. | **Variable 1** | **Variable 2** | ...
 --- | --- | --- | ---
 **Individu 1** | Valeur 1 | Modalité A |
 **Individu 2** | Valeur 2 | Modalité A |
 **Individu 3** | Valeur 3 | Modalité B |
 **...** | | |

Pour observer ce que nous obtenons dans notre cas, le lecteur peut se référer à la section ["Données finales"](#données-finales-obtenues).

Considérons un instant les types des variables qui sont en jeu, avant de présenter les étapes qui vont nous être nécessaires dans notre étude.

### Types de variables

Pour y voir plus clair, distinguons la "nature" des variables qui sont en jeu. On peut différencier :

- Les variables "**continues**" : il s'agit de variables numériques, sur lesquelles on peut effectuer des opérations mathématiques (calcul de moyenne, minimum, maximum...). Il s'agit par exemple des identifiants sous la forme de numéros ou de dates. (Notons au passage que les catégories que nous proposons ne correspondent pas scrupuleusement à des catégories statistiques consacrées : des puristes pourraient ici arguer notamment que lorsqu'il s'agit de nombres entiers, comme les identifiants ou les dates sous la forme d'années, on est en terminologie mathématique face à des variables qu'il faudrait dire discrètes plutôt que continues. Qu'importe, cela paraît de peu d'importance pour ce qui nous préoccupe ici.)

- Les variables "**catégorielles**" : il s'agit de "catégories" dans lesquelles on range les individus, des sortes d'étiquettes, en nombre limité, qu'on applique chacune à plusieurs individus. Dans notre cas, elles seront sous la forme de chaînes de caractères. Il s'agit par exemple des genres littéraires ou des lieux. Les initiales des noms peuvent également en relever.

- Les variables "**singulières**" : il s'agit de variables dont le contenu est singulier, et généralement unique, à chaque individu considéré. Typiquement, c'est le cas des noms des auteurs. La distinction avec les variables continues repose sur le fait qu'il s'agit de chaînes de caractères qu'il est plus difficile de transcrire en chiffres, et donc dont la manipulation peut différer.

Les variables continues présentent l'avantage de correspondre à une échelle déterminée : on peut facilement dire que 3 est supérieur à 1, ou que -500 est antérieur à -400. Néanmoins, les variables que nous avons appelées catégorielles ou singulières, peuvent également être "**ordonnées**", selon un critère déterminé : pour les noms en particulier, l'ordre alphabétique paraît être un mode d'arrangement qui fait sens. Pour les lieux, on pourrait les ranger par catégorie emboîtée (ville, région, pays), ou encore selon un ordre particulier (par exemple, d'ouest en est). Ces variables "ordonnées" se rapprochent alors un peu des variables continues, car, comme ces dernières, on peut désormais dire si telle modalité vient après ou avant telle autre modalité dans l'ordre qu'on a choisi : "Aristote" vient avant "Platon" pour la variable "nom" ordonnée par ordre alphabétique.

Notons que nous avons cité ici les variables les plus évidentes – et les plus accessibles – qui semblent à première vue porter le plus de sens pour la question qui nous préoccupe. Néanmoins, il se pourrait que nous laissions alors de côté d'autres considérations, comme par exemple des dates particulières, de découverte des manuscrits par exemple ; ou encore, nous pourrions être trop peu précis en ce qui concerne le nom des auteurs : peut-être ceux-ci ont-il évolué dans le temps et dans l'espace, selon les langues et les appellations, ou bien peut-être faudrait-il établir des distinctions selon ce qui pourrait correspondre à des éléments comme le nom et le prénom, en constituant alors des sous-variables plus précises.

### Saisir les corrélations

Pour comprendre les relations entre ces variables, notamment pour déterminer si elles sont corrélées ou non, et si oui, de quelle manière, nous allons mobiliser des analyses **graphiques** : plutôt que des analyses mathématiques à l'aveuglette, les graphiques paraissent offrir l'approche la plus flexible et compréhensive. Nous pourrons alors projeter les variables sur les axes, d'un plan habituel en deux dimensions, et éventuellement user de couleurs pour faire apparaître à travers elles une troisième dimension.

Il faut noter que nous devrons *a priori* toujours projeter la variable à expliquer, c'est-à-dire celle des identifiants (à moins que nous ne cherchions à distinguer des corrélations intermédiaires qui sont la cause première des relations observées – par exemple si le lieu est corrélé avec la date, on pourrait, en ne regardant que les identifiants et les lieux, penser qu'il y a corrélation, quand la véritable corrélation serait en réalité entre les identifiants et les dates).

*A priori*, les variables continues se prêtent bien à la projection sur un **axe** orienté, car elles correspondent à une échelle. Cela est vrai aussi, quoique dans une moindre mesure, pour les variables ordonnées, dont l'ordre peut apparaître au fil de l'axe. Les variables catégorielles (ordonnées ou non) quant à elles se prêtent bien à l'utilisation de **couleurs**, du fait qu'elles devraient être relativement peu nombreuses, et donc distinguables grâce à des couleurs différentes. Lorsqu'elles sont ordonnées (voire, dans un autre style, quand on a à faire à des variables continues), on pourrait de plus faire appel à un dégradé – par exemple, en attribuant des couleurs plus claires aux valeurs "inférieures", et des couleurs plus sombres aux valeurs "supérieures".

L'ajout d'une troisième dimension par la couleur pourra nous aider à distinguer une évolution dans le cas où la classification changerait de logique en cours de route, ou obéirait en fait à plusieurs logiques : par exemple, si les auteurs étaient regroupés par lieu, puis, au sein de chaque groupe constitué pour un lieu donné, qu'ils étaient classés par ordre alphabétique. On verrait ainsi, sur nos graphiques, soit des séquences d'éléments qui se suivent dans l'ordre alphabétique, chacune d'une couleur particulière (si on projette le nom sur un axe, et qu'on colore les lieux), soit des points regroupés ensemble par lieu, avec sur chacun un dégradé de couleurs correspondant à l'ordre alphabétique (si on projette les lieux sur un axe, et qu'on colore les initiales).

### Étapes nécessaires

Nous devrons constituer nos données, en récupérant les informations appropriées (correspondance entre identifiants et noms des auteurs, dates des auteurs, genre littéraire...), puis faire en sorte de les traiter. Successivement, nous devrons :

0. **Récupérer des données** (voir [Chargement des données](#chargement-des-données)), depuis internet notamment, à partir de bases de données déjà constituées ;

1. **Formater ces données** pour les rendre exploitables (voir [1. Formatage des données](#formatage-des-données)), notamment en s'assurant de l'homogénéité des catégories et en transformant certaines variables textuelles en variables numériques ;

2. **Réaliser des analyses** à partir des données formatées (voir [2. Analyses graphiques](#analyses-graphiques)), c'est-à-dire, ici, essentiellement des graphiques.

## Préparatifs

### Configuration générale

*Chargement des bibliothèques externes.*
```{r loading-packages}
pacman::p_load(
  here, jsonlite, knitr, skimr, tidyverse
)
```

*Configuration du rendu.*
```{r config-knitr, wrapper = TRUE}
# Disable globally some messages in the final rendering,
# such as minor warnings from external functions.
opts_chunk$set(
  message = FALSE,
  warning = FALSE
)

default_cols_nb <- 12
#' Print a vector as a kable.
#' Allows to fix auto-wrapped printed vector.
#' @param data Vector of data to print.
#' @param cols_nb Integer. Desired number of columns.
#' @return NULL Prints the table as a knitr::kable.
print_vector <- function(data, cols_nb = default_cols_nb) {
  tibble(val = data) %>%
    rowid_to_column() %>%
    mutate(
      group = rowid %% cols_nb,
      new_rowid = ceiling(rowid / cols_nb)
    ) %>%
    select(-rowid) %>%
    pivot_wider(names_from = group, values_from = val) %>%
    select(-new_rowid) %>%
    mutate_all(
      ~ replace_na(., "")
    ) %>% 
    knitr::kable(
      col.names = c()
    )
}
```

*Déclaration de variables globales (qu'on pourrait aussi appeler des constantes).*
```{r constants}
# Input directory.
input_dir <- here("projet_final/data/")
# On Windows, the 'here' package deletes the final "/" although we need it, therefore we must add it again.
if (.Platform$OS.type == "windows") input_dir <- paste0(input_dir, "/")

# Variants for NA in the retrieved data.
na_variants <- c(
  "", "?", "\n", "...",
  "NA", "n.a.", "n",
  "none", "None", "one",
  "unknown", "Unknown",
  "Various", "Varia",
  "Uncertain"
)

# Note that we will declare colors in relevant section to present them,
# which is in the middle of the second section.
```

Nous déclarons ci-dessus une fois pour toutes les différentes chaînes de caractères pouvant être utilisées pour indiquer des **données manquantes**, dans les différentes variables des données originales, repérées au fil de nos explorations. Elles seront remplacées en une fois au début du formatage des données.

### Chargement des données

La plupart des données que nous mobilisons sont récupérées depuis un [tableur en ligne du *Projet Perseus*](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit). Le tableur contient des entrées d'œuvres antiques, ainsi que des informations sur leurs auteurs qui pourraient nous être utiles, en particulier : nom, lieu, dates d'activité, de "début" et de "fin". Il contient également les identifiants qu'on cherche à expliquer, à savoir les identifiants TLG et PHI.

```{r loading-data, warning = FALSE}
phi_works_raw_df <- read_csv(paste0(input_dir, "latin_authors_by-perseus.csv"))
tlg_works_raw_df <- read_csv(paste0(input_dir, "greek_authors_by-perseus.csv"))
```

En complément, nous utiliserons la liste des genres récupérée depuis les fichiers du [CLTK](https://github.com/cltk/cltk/blob/master/cltk/corpus/greek/tlg/author_epithet.json) (*Classical Language ToolKit*, la boîte à outils des langues classiques). Il ne s'agit ici que des auteurs grecs – il aurait été possible de récupérer l'épithète de genre sur les noms des auteurs TLG tels qu'ils sont formatés dans la liste du Projet Perseus, mais autant profiter de ce formatage déjà établi.

```{r loading-data-epithets}
tlg_epithets_raw_df <-
  read_json(paste0(input_dir, "greek_authors-epithets_by-cltk.json")) %>%
  enframe("genre", "code")
```

Notons que nous conserverons, dans l'environnement de développement, les tableaux avec les données d'origine chargés ici : cela nous permettra en effet, au cours du développement de nos analyses, d'éventuellement aller vérifier quelles étaient les données de base correspondantes.

## 1. Formatage des données

### Variables recherchées

*Pour consulter les données finales obtenues, rendez-vous [à la fin de la section](#données-finales-obtenues) !*

Pour rendre les données récupérées exploitables, nous devons en formaliser la structure en les "encodant" de sorte qu'elles correspondent aux analyses que nous souhaitons mener.

En fin de compte, les variables que nous obtiendrons seront les suivantes :

| Nom | Description | Exemple | Nature | Type | Source d'origine |
|---:|---|---|---|---|---|
| `code` | identifiant | `0059` | nombre | continue | [Perseus](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit) |
| `init` | initiale* | `P` | caractère | catégorielle<br>ordonnée | Première lettre<br>de "nom" |
| `name` | nom* | `Plato Phil.` | caractères | singulière<br>ordonnée | [Perseus](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit) |
| `genre` | genre littéraire<br>(*TLG uniquement*) | `Philosophici/-ae` | caractères | catégorielle | [CLTK](https://github.com/cltk/cltk/blob/master/cltk/corpus/greek/tlg/author_epithet.json) |
| `place` | lieu | `Greece` | caractères | catégorielle | [Perseus](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit) |
| `date` | date | `-500` | nombre | continue** | Copie de<br>"date d'activité" |
| `date_active` | date d'activité,<br>ou siècle | `-500` | nombre | continue** | [Perseus](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit) |
| `date_begin` | date "de départ",<br>ou de naissance | `-427` | nombre | continue | [Perseus](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit) |
| `date_end` | date "de fin",<br>ou de mort | `-348` | nombre | continue | [Perseus](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit) |

<div style="text-align:center;margin-bottom:15px">***Tableau des variables utilisées***</div>

<div style="font-size:smaller;margin-bottom:20px">(*) Nous serons par la suite amenés, au cours de nos analyses, à modifier les noms, et par conséquent les initiales, qui nous servent de référence. Nous travaillerons alors sur une copie du tableau d'origine.</div>

<div style="font-size:smaller;margin-bottom:20px">(**) Le caractère continu de la "date d'activité" est ambigu : il s'agit en effet le plus souvent de siècles, si bien qu'on pourrait considérer qu'il s'agit d'une variable catégorielle ordonnée. Néanmoins, par commodité, nous la traiterons comme une variable proprement numérique, c'est-à-dire continue.</div>

Pour obtenir ces données finales, exploitables statistiquement, nous avons dû faire plusieurs choix.

- Pour les **dates**, nous conservons, pour chacune sus-mentionnée, une variable équivalente sous la forme de chaîne de caractères, plus détaillée et plus fidèle aux données de départ, mais plus difficilement exploitable statistiquement par des graphiques.

  Ces équivalents-caractères ressemblent à ceci :

  - "`200bce?`" correspond, avec une incertitude (`?`) à 200 avant notre ère (`bce` pour *Before Common Era*), et est traduit sous forme numérique en `-200` ;

  - "`100ce-200ce`" désigne un intervalle compris entre 100 et 200 de notre ère (`ce` pour *Common Era*). Nous prenons alors la moyenne des deux extrémités, ce que nous donne `150`.

- En ce qui concerne le "**siècle**", le fait de prendre la moyenne lorsqu'on est face à un intervalle brise l'homogénéité de la mesure. "`100ce-200ce`" correspond à "entre le premier et le second siècle", néanmoins "`150`" ne correspond plus à un siècle, mais plutôt à un demi-siècle.
De plus, nous avons un problème au tournant de l'ère : "`100bce`" correspond au premier siècle avant (années -100 à -1) et "`100ce`" au premier siècle après (années 1 à 100) : l'échelle des siècles passe directement du -1 au 1, sans 0 intermédiaire, alors que la considérer comme un nombre "normal" la fait passer par un 0.

  Ce dernier souci étant de peu d'importance et non évident à corriger, nous signalons simplement que les dates entre -100 et 100, quand nous prendrons les siècles (`date_active` ou `date`), seront étalées deux fois plus que relativement à des données correctement homogènes.

- Pour les **lieux**, nous n'avons conservé que le pays, pour gagner en généralité et avoir des catégories plus amples – les données de départ comportaient également parfois la région et/ou la ville.

  Lorsque plusieurs lieux étaient indiqués, nous n'avons arbitrairement conservé que le dernier de la liste. Il aurait été possible, mais alors plus fastidieux, de récupérer ces lieux multiples pour les formater convenablement, en les attribuant à chaque auteur sous la forme d'un objet "liste", pour ensuite dupliquer chaque ligne contenant plusieurs lieux. Cela nous aurait permis de faire une analyse plus complète des lieux ; un même auteur avec un seul identifiant aurait alors pu être représenté par plusieurs points, de sorte qu'il aurait été possible de repérer, sur les nuages de points, le lieu "aberrant" et le lieu "correct" vis-à-vis de la logique dominante qui se serait dégagée.

  Nous avons également relevé, mais sans y appliquer un traitement particulier, qu'il pouvait exister diverses appellations pour un espace géographique identique, en totalité ou en partie. Par exemple, nous observons les modalités "*Ionia*", "*Turkey*", "*Anatolia*" ou encore "*Tunisia*", "*North Africa*", "*Africa*". Ces désignations sont probablement liées en partie à l'époque à laquelle appartient l'auteur : par exemple, "*Ionia*" serait plutôt l'appellation employée pour les poètes archaïques et les philosophes présocratiques, alors que "*Turkey*" correspondrait aux auteurs chrétiens. Cependant, cette explication ne semble pas s'appliquer à tous les lieux et à tous les auteurs puisque, comme nous pourrons l'observer dans les graphiques des paragraphes consacrés aux [identifiants et lieux](#identifiants-et-lieux), le lieu "*Turkey*" concerne des auteurs dès le quatrième siècle avant notre ère. Comprendre la logique qui a conduit à désigner ces territoires en fonction des dates, et peut-être des genres, pourrait faire l'objet d'une étude à part entière. Nous avons cependant gardé les désignations de lieux telles que nous les avons récupérées dans nos données.

- Pour les **genres**, lorsqu'un auteur appartenait à plusieurs genres, nous n'avons conservé que le premier genre qui apparaissait par ordre alphabétique – de même que nous venons de l'expliciter quant aux lieux multiples, il aurait alternativement été possible d'user d'objets "liste".

- On remarquera dans le tableau d'auteurs grecs au chapitre ["Données finales obtenues"](#données-finales-obtenues) que certains genres littéraires figurent dans la colonne des **noms d'auteurs** (issue de Perseus) alors qu'elles sont manquantes dans celle des genres (dans le tableau importé CLTK). Une observation plus attentive permet cependant de remarquer que ces "genres" qui apparaissent dans la colonne (par exemple *epistulae*) font partie intégrante de la variable `name` ; ils ne sont pas qualifiants d'un auteur, mais désignent un corpus qualifié par le nom d'un auteur - réel, inconnu ou réinventé - désigné par la tradition. Par exemple, *Alexandri Magni epistulae* ne désigne pas Alexande le Grand, auteur d'*epistulae*, mais des *epistulae* dont l'auteur est *Alexandri Magni* – autrement dit, sous cet identifiant est regroupée la correspondance de cet auteur. Nous avons conservé les noms tels qu'ils apparaissaient dans les données que nous utilisons.

### Principes méthodologiques

Nous allons formater les données que nous avons récupérées pour qu'elles correspondent aux variables que nous avons décrites, en procédant successivement variable par variable.

Pour chaque section de formatage, nous allons procéder dans l'ordre suivant :

- **Présentation** de la variable et du formatage nécessaire
- **Création de fonctions** adaptées pour formater la variable convenablement
- **Test** des fonctions, sur des données choisies ou une copie intermédiaire de nos données
- **Application** des fonctions à nos tableaux de données
- **Corrections** supplémentaires, si nécessaire
- **Résumé** des données obtenues pour la variable

Cette démarche nous permet d'agir, dans le processus de développement du code source servant à notre analyse, avec flexibilité : nous pourrons notamment réaliser des tests au fur et à mesure que nous ajustons et perfectionnons nos fonctions de formatage, dans un aller-retour entre section de tests et section de création de fonctions.

Il y aura ainsi cinq parties :

1. [Récupération de la liste des auteurs (depuis le données Perseus)](#des-œuvres-aux-auteurs)
2. [Formatage des dates (récupérées à l'étape 1)](#formatage-des-dates)
3. [Formatage des lieux (récupérés à l'étape 1)](#formatage-des-lieux)
4. [Adjonction des genres littéraires (depuis les données CLTK)](#adjonction-des-genres)
5. [Formatages supplémentaires finaux](#formatages-supplémentaires)

Pour finir, la [section conclusive](#données-finales-obtenues) contiendra l'ensemble des données ainsi obtenues.

### 1.1. Des œuvres aux auteurs

Puisque les données récupérées depuis le tableur du projet Perseus consistent en une liste d'œuvres, nous devons en faire une liste d'auteurs, en récupérant les données qui nous intéressent.

On conserve, pour chaque auteur, les variables suivantes :

Description | Nom dans notre tableau | Nom dans le tableau original
--- | --- | ---
nom | `name` | `TLG` / `PHI` `AUTHOR NAME`
identifiant | `code` | `TLG` / `PHI` `#`
lieu | `place` | `Location`
date d'activité | `date_active` | `Century/Dates Active`
date "de départ" ou de naissance | `date_begin` | `Begin Date/Birth Year`
date "de fin" ou de mort | `date_end` | `End Date/Death Year`

Pour la date d'activité, il s'agit le plus souvent de siècles, formatés comme des années multiples de 100 (*eg. "100 CE" correspond au premier siècle*). Pour les dates de début ou de fin, il s'agit d'années ou de siècles (formatés alors comme précédemment).

```{r from-works-intro}
# We will compute the authors dataframes from the works dataframes.
```

```{r from-works-demo, eval = FALSE}
# Didactic demo code: selecting and renaming columns.
tlg_authors_df <-
  tlg_works_raw_df %>%
  transmute(
    code = `TLG#`,
    name = `TLG AUTHOR NAME`,
    place = `Location`,
    date_active = `Century/Dates Active`,
    date_begin = `Begin Date/Birth Year`,
    date_end = `End Date/Death Year`
  )
```

#### Fonctions et application

```{r notes-on-functions}
# Since we will be doing exactly the same operations on both works list,
# we will use functions (to avoid hurtful copy-pasting, which is inconvenient for code modifications).
# Hopefully, column names are almost the same in both retrieved documents.
```

```{r from-works-apply}
# Passing column names through a function is not obvious,
# but it's possible if we use what is called quosures.
# @see https://github.com/r-lib/rlang/issues/116
# @see https://stackoverflow.com/questions/48062213/dplyr-using-column-names-as-function-arguments

#' Extract authors from raw works dataframe.
#' @param works_raw_df Dataframe. Works as dataframe, extracted from data.
#' @param specific_filling String. String that is specific to the columns names in the data.
#' e.g. "PHI" is used in the latin works dataframe for naming some columns,
#' whereas "TLG" is prefered in the greek one.
#' @return Dataframe. Authors as dataframe.
extract_authors <- function(works_raw_df, specific_filling) {
  # Compute some column names that are specific to the given data frame.
  code_col_name <- paste0(specific_filling,"#")
  author_col_name <- paste0(specific_filling," AUTHOR NAME")

  # Build the data frame.
  authors_df <-
    # 1. Keep only the columns we need from raw data and rename them.
    works_raw_df %>%
    transmute(
      code = !!sym(code_col_name),    # Identifiant de l'auteur
      name = !!sym(author_col_name),  # Nom de l'auteur
      place = `Location`,
      date_active = `Century/Dates Active`,
      date_begin = `Begin Date/Birth Year`,
      date_end = `End Date/Death Year`
    ) %>%
    # 2. Drop trailing carriage returns that mess things up.
    mutate_all(~ str_replace_all(., "\n$", "")) %>%
    # 3. Trim all.
    mutate_all(~ str_trim(.)) %>%
    # 4. Keep only the first four digits from the code,
    # and parse it to a numerical value for further analysis.
    # Only the first four are relevant to the author,
    # other trailing characters in the code
    # can characterize the work, for instance
    # (remember it's a list of works we have at the beginning).
    # Beware: When numbers are <1000, they are not always padded on the right.
    mutate(
      code = code %>%
        str_extract("^\\d{1,4}") %>%
        parse_number()
    ) %>%
    # 5. Select only one row per unique code,
    # that is to say: keep only one row per author,
    # instead of one row per work.
    # We could have used the author's name, but
    # 1) using the code drops the authors who do not have a code,
    # and since we want to analyze codes,
    # we have no use of authors that do not have a code;
    # 2) using the name would keep only one individual for hononyms instead of several.
    # rq: It keeps one row with 'NA' as code, we will remove it hereafter.
    distinct(code, .keep_all = TRUE) %>%
    # 6. Sort by code.
    arrange(code) %>%
    # 7. Replace NA-equivalent values to proper NA.
    mutate_all(~ replace(., . %in% na_variants, NA)) %>%
    # 8. Drop rows that don't have any code.
    drop_na(code)

  # Return the data frame.
  return(authors_df)
}

phi_authors_df <- extract_authors(phi_works_raw_df, "PHI")
tlg_authors_df <- extract_authors(tlg_works_raw_df, "TLG")
```

#### Corrections d'erreurs manuelles

Nous n'avons pas vérifié de manière systématique les erreurs qui peuvent être présentes dans les données que nous avons récupérées, nous corrigeons seulement celles qui relèvent de valeurs aberrantes immédiatement visibles lors de nos formatages ultérieurs, manifestement dues à des erreurs de frappe, comme par exemple l'indication de "Rhodes" comme siècle d'activité.

```{r authors-corrections}
# Some manual corrections of errors in the data.
# The transformations are as follows:
# - place <-> date_active, for 2353 (instead of "500 BCE" as place and "Rhodes" as date)
# - place -> date_active, for 1784 (instead of "400 BCE" as place)
# - date_active -> NA, for 2514 (instead of "Rome, Italy")
# - date_end -> "495 BCE/478 BCE", for 0237 (instead of "CE" when the other two are "BCE")
tmp_place_2353 <-
  tlg_authors_df %>%
  filter(code == 2353) %>%
  pull(date_active)
tlg_authors_df <- tlg_authors_df %>%
  mutate(
    date_active = case_when(
      code == 1784 | code == 2353 ~ place,
      code == 2514 ~ NA_character_,
      TRUE ~ date_active
    ),
    place = case_when(
      code == 1784 ~ NA_character_,
      code == 2353 ~ tmp_place_2353,
      TRUE ~ place
    ),
    date_end = case_when(
      code == 237 ~ "495 BCE/478 BCE",
      TRUE ~ date_end
    )
  )
# Remove variables that are useless in the future.
remove(tmp_place_2353)
```

### 1.2. Formatage des dates

Les dates extraites de nos données d'origine sont peu mobilisables dans des analyses statistiques, elles manquent de cohérence et sont difficilement interprétables programmatiquement, ne correspondant à aucun format structuré.

Nous allons donc les formater convenablement.

Les données d'origine sont textuelles et contiennent plusieurs erreurs et irrégularités. Par conséquent, le travail d'encodage à faire est important.

Nous allons commencer par établir les expressions régulières : d'abord celles qui semblent correspondre plus ou moins aux données de départ, puis celles auxquelles nous souhaitons faire strictement correspondre les données "mises au propre".

Une fois cet objectif déterminé, nous devrons tout d'abord re-formater les dates en restant dans le domaine des chaînes de caractères, de telle sorte qu'elles correspondent scrupuleusement à l'expression régulière finale que nous souhaitons, puis, une fois ce travail accompli, nous pourrons les convertir en nombre facilement.

L'expression régulière finale aura la forme suivante :

```{r, eval = FALSE}
"(ante|post)?(\\d{1,4})(ce|bce)(\\?)?"
```

<div style="text-align:center;margin-top:20px;font-size:larger">
  <span style="color:#3498db">ante</span>
  <span style="color:#e74c3c">200</span>
  <span style="color:#9b59b6">bce</span>
  <span style="color:#28b463">?</span>
</div>

<div style="text-align:center;margin-bottom:20px;font-size:smaller">
  <span style="color:#3498db">avant / après la date considérée</span><br>
  <span style="color:#e74c3c">année</span><br>
  <span style="color:#9b59b6">avant / de notre ère</span><br>
  <span style="color:#28b463">indicateur de date incertaine</span><br>
</div>

La date peut également être un intervalle : ce sont alors deux dates formatées comme ci-dessus liées par un tiret.

Nous ne retiendrons néanmoins sous la forme numérique, pour chaque date, que les deux parties centrales, à savoir l'année et si cela est avant notre ère ou de notre ère. "`ante200bce?`" donnera donc "`-200`".

Comme nous l'avons déjà évoqué, lorsque nous seront face à un intervalle, nous prendrons la moyenne des extrémités : "`100ce-200ce`" donne "`150`".

#### Remarques techniques introductives

```{r date-intro}
# We will need a date parser.

# We could extract the first (most-left) match from the sequence of digits,
# which would be good enough,
# but this does not deal with BCE/CE, nor does it assure data correctness.
# So we will parse things in a neatlier way.
```

```{r date-notes, eval = FALSE}
# Here we have to deal with the date before common era (BCE) and within common era (CE).

# This causes a few problems
# since most specifications and packages do not deal with this natively:

# - Timestamps usually start at 1970-01-01.
# Dates before are stored as negative values, eg.
lubridate::ymd_hms("1969-12-31T23:59:59") # == -1

# - ISO 8601 year starts at 0000-01-01 which is the 1st January of 1 BCE.
# @see https://en.wikipedia.org/wiki/ISO_8601

# Reminder: There is no such thing as year zero.
# @see https://en.wikipedia.org/wiki/Year_zero
# Although, there are some "0 CE" and "0 BCE" in our data, which is not clear.
```

```{r date-notes-lubridate, eval = FALSE}
# A few remarks about the lubridate package.

# The lubridate package
# - Does not handle BCE date natively
# - Will not be able to match our data as raw values
# (that have intervals and CE/BCE specifications)
# @see https://lubridate.tidyverse.org/
# @see https://raw.githubusercontent.com/rstudio/cheatsheets/master/lubridate.pdf
# @see https://github.com/tidyverse/lubridate/issues/2

# If we want to deal with BCE date anyway, we could do something such as:
lubridate::ymd("0000-01-01") - lubridate::years(1) # == "-001-01-01"
# @WARN: Since "0000-01-01" is 1 BCE, "-0001-01-01" would be 2 BCE.
# We could write a helper function to retrieve correct dates from this,
# also taking into account months, days, etc., that we do not need here.
```

On prépare les données qui nous serviront pour nos tests.

```{r date-test-sample, eval = FALSE}
# Test sample from the data,
# to build regex fitted for most common cases.
test_dates <- c(
  "400 BCE",
  "200 BCE?",
  "10 CE",
  "01 CE",
  "200 CE",
  "200 CE?",
  "1050 CE",
  "ante 200 CE",
  "Ante 100 CE",
  "post 200 CE",
  "90 CE/95 CE",
  "100 BCE-0 CE",
  "600 BCE-500 BCE",
  "100 CE-200 CE?",
  "100 BCE-100 CE",
  "284 BCE/275 BCE",
  "1100 CE-1200 CE",
  "ante 100 CE-200 CE",
  # Writing errors?
  "500 BCE-",
  "200 - 400 CE"
)

# Every date in the data, to functions against them.
test_cols_dates <- c(
  tlg_authors_df$date_active,
  tlg_authors_df$date_begin,
  tlg_authors_df$date_end,
  phi_authors_df$date_active,
  phi_authors_df$date_begin,
  phi_authors_df$date_end
)
```

#### Trouver l'expression régulière adaptée

```{r date-regex}
# Regular expressions.
# rq: The (?i) flag for case-insensitivity works with the stringr package.
# It may end up duplicated here, but it does not seem to matter.

# 1. Loose regular expressions,
# avoiding any re-writing of data.
date_loose_single_regex <- "(?i)((ante|post|pre|before)? ?\\d{1,4} ?(CE|BCE)\\??-?)"
date_loose_regex <- paste0(date_loose_single_regex," ?((-|/) ?",date_loose_single_regex,")?")

# 2. Strict regular expressions,
# that requires pre-formatting of data,
# such as whitespaces removing and terms homogeneity.
date_single_regex <- "(ante|post)?(\\d{1,4})(ce|bce)(\\?)?"
# Capturing groups (starting at 2, in columns of the matrix resulting from`match()`):
# - 2-5 are for left-side (start of date interval)
# - 6-9 are for right-side (end of date interval)
# - 2, 6: "ante" or "post" (optional)
# - 3, 7: year as number
# - 4, 8: "ce" or "bce"
# - 5, 9: whether it is an approximation (optional)
date_regex <- paste0(date_single_regex,"(?:-",date_single_regex,")?")
```

```{r date-regex-test, eval = FALSE}
# Test to adjust regex gradually, we look at what does not pass the regex.
test_dates %>% str_subset(paste0("^",date_loose_regex,"$"), negate = TRUE)
test_cols_dates %>%
  setdiff(na_variants) %>%
  str_subset(paste0("^",date_loose_regex,"$"), negate = TRUE)
```

Après plusieurs essais, on comprend qu'une expression régulière ne va pas suffire pour récupérer les informations depuis les données d'origine : un formatage supplémentaire préalable se révèle nécessaire.

#### Formater les chaînes de caractères

```{r date-format}
#' Format dates from a string vector so they match our strict regex.
#' @param str_v String vector containing date to format.
#' @return String vector with dates formatted.
format_dates <- function(str_v) {
  res_str_v <-
    str_v %>%
    # 1. Lowercase.
    str_to_lower() %>%
    # 2. Remove every whitespaces, as they are meaningless.
    str_replace_all(" ", "") %>%
    # 3. Replace irregular values to homogenize.
    str_replace_all(c(
      "/" = "-",
      "pre|before" = "ante"
    )) %>%
    # 4. Fix some writing errors.
    # rq: Here we temporary use whitespaces
    # as they are nicer than lookarounds, eg. "(?<=\d)bcw(?=-|$)"
    str_replace_all("([a-z]+)", " \\1 ") %>%
    str_replace_all(c(
      " e " = "ce",
      " cer " = "ce",
      " be " = "bce",
      " bc " = "bce",
      " bcw " = "bce",
      " bcebce " = "bce"
    )) %>%
    str_replace_all(" ", "") %>%
    # 5. Remove trailing "-".
    str_replace_all("-$", "") %>%
    # 6. Add ce/bce on the left side when it is missing.
    # @WARN: Here, we use lookahead to copy the right side to the left side,
    # as if it were a common factor.
    # In our data things seem to be doing fine,
    # but this method does not handle the hypothetical case
    # where left-side would be BCE and right CE.
    # In this case, we would know that,
    # considering left comes chronologically before right:
    # - If right is BCE, then left is also BCE;
    # eg. 200-100bce must be 200bce-100bce
    # - If right is CE, then left is BCE
    # if digits on the left are greater than the ones on the right;
    # eg. 200-100ce must be 200bce-100ce
    # - If there are not, we cannot be sure if left is CE or BCE.
    # eg. 50-100ce cannot be determined
    # So we would need to match, parse to number, and compare each side.
    str_replace_all("(\\d)(?=-\\d+(bce|ce))", "\\1\\2")
  # 7. Delete elements that still don't pass the regex,
  # there are not valid dates and we cannot make them fit into one.
  # In our data, we are left with "rhodes" and "rome,italy".
  # They are not dates. We fix those two in previous sections of the document.
  res_str_v <- res_str_v %>%
    str_detect(paste0("^",date_regex,"$")) %>%
    if_else(res_str_v, NA_character_)

  return(res_str_v)
}
```

```{r date-format-test, eval = FALSE}
# Test to improve formatting gradually, we look at what does not pass the regex.
test_cols_dates %>%
  format_dates() %>%
  str_subset(paste0("^",date_regex,"$"), negate = TRUE)
```

#### Convertir les caractères en nombres

```{r date-convert}
#' Helper function.
#' Convert a side of the interval into a number.
#' @param match String vector. Relevant portion of a match from convert_dates()
#' @return Number, date as number
hlp_convert_single_date <- function(match) {
  is_bce <- if_else(match[, 3] == "bce", TRUE, FALSE)
  number <- parse_number(match[, 2])
  number <- if_else(is_bce, -number, number)
  return(number)
}
#' Convert dates into a number, which is the year.
#' CE years are positive values, BCE years are negative values.
#' If the date includes an interval, take the mean of the interval.
#' @param str_v String vector containing date to convert.
#' @return Number vector with converted dates.
convert_dates <- function(str_v) {
  match <- str_match(str_v, date_regex)
  left_number <- hlp_convert_single_date(match[, 2:5])
  right_number <- hlp_convert_single_date(match[, 6:9])
  res_number <- map2_dbl(
    left_number,
    right_number,
    ~ mean(c(.x, .y), na.rm = TRUE)
  )
  return(res_number)
}
```

```{r date-convert-test, eval = FALSE}
test_cols_dates %>%
  format_dates() %>%
  convert_dates()
```

#### Application aux données

```{r date-apply}
#' Parse dates from a dataframe.
#' @param df Dataframe containing date columns to parse.
#' @return Dataframe with dates parsed.
#' @see https://stackoverflow.com/questions/45947787/create-new-variables-with-mutate-at-while-keeping-the-original-ones
parse_dates_df <- function(df) {
  # Columns that we will compute on
  cols <- c("date_active", "date_begin", "date_end")

  res_df <-
    df %>%
    # 1. Apply the functions to every columns we selected.
    mutate(across(
      .cols = all_of(cols),
      .fns = list(
        str = format_dates,
        num = ~ format_dates(.) %>% convert_dates()
      ),
      .names = "{col}_{fn}"
    )) %>%
    # 2. Drop original colums to replace them with their numeric equivalent
    select(-all_of(cols)) %>%
    rename_at(
      paste0(cols,"_num"),
      ~ cols
    ) %>%
    # 3. Regroup columns by type
    relocate(all_of(cols), .before = "date_active_str")

  return(res_df)
}

phi_authors_df <- phi_authors_df %>%
  parse_dates_df()
tlg_authors_df <- tlg_authors_df %>%
  parse_dates_df()
```

```{r date-clean, echo = FALSE, eval = FALSE}
# We remove objects that we will not need any further.
remove(test_dates, test_cols_dates)
```

#### Résumé des dates obtenues

```{r}
# Beware, the code writing is not great here,
# it has been done quickly.
# To improve, one could look at dyplr::summarise(), or skimr
#' @param df Dataframe.
#' @return NULL. It prints the summary.
print_date_summary <- function(df) {
  tmp_cols <- list(
      df$date_active,
      df$date_begin,
      df$date_end
    ) %>%
    transpose()
  tibble(
    col_name = c("date_active", "date_begin", "date_end"),
    min = pmap_dbl(tmp_cols, min, na.rm = TRUE),
    max = pmap_dbl(tmp_cols, max, na.rm = TRUE)
  )
}
```

---

##### Auteurs latins

```{r}
print_date_summary(phi_authors_df)
```

Les auteurs latins que nous avons se répartissent, globalement, du VIe siècle avant notre ère, au VIe siècle de notre ère.

---

##### Auteurs grecs

```{r}
print_date_summary(tlg_authors_df)
```

Les auteurs grecs que nous avons se répartissent, globalement, du VIIIe siècle avant notre ère, au XVIe siècle de notre ère.

### 1.3. Formatage des lieux

Pour s'assurer de l'homogénéité des données, tout en gagnant en généralité, nous n'allons garder en matière de lieu que le pays, en laissant de côté des indications plus précises comme la ville. Nous ne gardons également arbitrairement qu'un seul pays lorsque plusieurs sont indiqués.

```{r place-function}
#' Format places.
#' Only the most-left string, uninterrupted by a comma, is kept.
#' @param df Dataframe
#' @return Dataframe
format_places_df <- function(df) {
  res_df <-
    df %>%
    rowwise() %>%
    mutate(
      place = place %>%
        # 1. Split by comma or similar signs that are also used.
        # Comma and slash are meaningful,
        # but dots or double backslashes seem to be mistakes.
        str_split( ",|/|\\.|\\\\") %>%
        # 2. Keep only the last part
        unlist() %>%
        last() %>%
        # 3. Clean the result for homogeneity
        str_trim() %>%
        str_to_title() %>%
        str_replace_all("\\?", "") %>%
        # 4. Fix some writing errors.
        str_replace_all(c(
          "Liby$" = "Libya",
          "Cyrpus" = "Cyprus"
        ))
    ) %>%
    ungroup()
  return(res_df)
}
```

```{r place-test, eval = FALSE}
# Check that final places are unique.
test_places <- function(df) {
  df %>%
    format_places_df() %>%
    distinct(place) %>%
    arrange(place) %>%
    pull(place)
}
test_places(phi_authors_df)
test_places(tlg_authors_df)
```

```{r place-apply}
phi_authors_df <- format_places_df(phi_authors_df)
tlg_authors_df <- format_places_df(tlg_authors_df)
```

#### Résumé des lieux obtenus

---

##### Auteurs latins

```{r place-stats-phi}
phi_authors_df %>%
  distinct(place) %>%
  arrange(place) %>%
  pull() %>%
  print_vector()
phi_authors_df %>%
  summarise(
    n = n(),
    na_n = sum(is.na(place)),
    na_rate = round(na_n / n, 3)
  )
```

---

##### Auteurs grecs

```{r place-stats-tlg}
tlg_authors_df %>%
  distinct(place) %>%
  arrange(place) %>%
  pull() %>%
  print_vector(8)
tlg_authors_df %>%
  summarise(
    n = n(),
    na_n = sum(is.na(place)),
    na_rate = round(na_n / n, 3)
  )
```

### 1.4. Adjonction des genres

On ajoute finalement les genres, depuis les données du CLTK. Lorsqu'il y aura plusieurs genres pour un même auteur, on ne conservera que le premier genre dans l'ordre alphabétique.

```{r genre-apply}
tmp_tlg_epithets_df <-
  tlg_epithets_raw_df %>%
  unnest(cols = code) %>%
  mutate(code = code %>%
    unlist() %>%
    parse_number()
  ) %>%
  distinct(code, .keep_all = TRUE)
tlg_authors_df <- tlg_authors_df %>%
  left_join(tmp_tlg_epithets_df, by = "code") %>%
  relocate(genre, .after = name)
remove(tmp_tlg_epithets_df)
```

#### Résumé des genres obtenus

```{r genre-list}
tlg_authors_df %>%
  distinct(genre) %>%
  arrange(genre) %>%
  pull() %>%
  print_vector(6)
```

Les données obtenues directement depuis le fichier du CLTK paraissent ne pas comporter d'irrégularités et donc ne pas nécessiter de nettoyage supplémentaire.

```{r genre-stats}
tlg_authors_df %>%
  summarise(
    n = n(),
    na_n = sum(is.na(genre)),
    na_rate = round(na_n / n, 3)
  )
tlg_authors_df %>% slice(31:40)
```

Notons néanmoins qu'il aurait été plus efficace de récupérer l'information des genres directement sur le nom des auteurs : en calculant les valeurs manquantes, on voit qu'il nous en manque plus d'un tiers, et en consultant le contenu des tableaux (ci-dessus un extrait), on s'aperçoit que bien souvent l'épithète qui apparaît pourtant dans le nom n'apparaît pas dans la colonne générée à partir des données du CLTK.

### 1.5. Formatages supplémentaires

Pour terminer et faciliter les analyses graphiques suivantes, nous allons créer deux nouvelles variables :

- **l'initiale** : pour éviter d'avoir à traiter des milliers de noms d'auteurs alors que nous nous intéresserons à un possible classement alphabétique, nous pourrons ainsi ne retenir que leur initiale. Cela nous permettra également d'afficher des couleurs en fonction des initiales, celles-ci constituant une variable catégorielle ;

- **la date** : on prendra arbitrairement le plus souvent le siècle d'activité comme date de référence, d'où nous en dupliquons la colonne pour y accéder plus facilement.

De plus, nous supprimons les caractères indésirables au début du nom des auteurs, pour être sûrs de récupérer l'initiale correctement et d'être conformes à l'ordre alphabétique.

```{r format-complementary}
# Nettoyage de parenthèses diverses pour le fichier TLG
tlg_authors_df$name <- gsub("(<|\\[|\\()", "", tlg_authors_df$name)

# Création d'une colonne des initiales des auteurs
tlg_authors_df$init <- substring(tlg_authors_df$name,1,1)
phi_authors_df$init <- substring(phi_authors_df$name,1,1)

# Réorganisation de l'ordre des colonnes
tlg_authors_df <- tlg_authors_df %>%
  relocate(init, .before = name)
phi_authors_df <- phi_authors_df %>%
  relocate(init, .before = name)

# Ajout d'une colonne "date" qui copie "date_active", par commodité
tlg_authors_df <- tlg_authors_df %>%
  mutate(date = date_active, .before =  date_active)
phi_authors_df <- phi_authors_df %>%
  mutate(date = date_active, .before =  date_active)
```

### Données finales obtenues

*Pour savoir plus précisément ce à quoi correspondent chacune des variables obtenues, rendez-vous [au début de la section](#variables-recherchées) !*

---

#### Auteurs latins

```{r phi-data-final}
phi_authors_df
skim(phi_authors_df)
```

---

#### Auteurs grecs

```{r tlg-data-final}
tlg_authors_df
skim(tlg_authors_df)
```

## 2. Analyses graphiques

Pour trouver les logiques internes de classement, nous allons procéder progressivement, en analysant successivement les différentes variables en fonction de la variable à expliquer, l'identifiant.

Nous commencerons par analyser les variables deux à deux, en projetant les auteurs selon un nuage de points. L'identifiant, variable à expliquer, sera systématiquement projeté en abscisse, et la variable potentiellement explicative en ordonnée.

Puis nous chercherons à saisir des sous-logiques internes en ajoutant une troisième variable, ce qui correspond à une "troisième dimension" sur nos graphiques, que nous matérialiserons par de la couleur.

Si nécessaire, au fil de nos analyses, nous pourrons revenir en "deux dimensions" si cela paraît pertinent – éventuellement en colorant une des dimensions pour davantage de clarté visuelle –, par exemple sur une séquence particulière – car il se pourrait bien que nous découvrions l'existence de "séquences" particulières...

À chaque fois, on analysera les auteurs grecs, puis les auteurs latins. Au fur et à mesure, on saisira les logiques sous-jacentes aux classifications TLG et PHI.

### Analyses en deux dimensions

### 2.1. Les identifiants par les noms

La classification qui paraîtrait la plus intuitive est celle de l'ordre alphabétique. Voyons donc si les codes sont corrélés ou non aux noms des auteurs projetés par ordre alphabétique.

---

#### Auteurs grecs

```{r tlg-code-name}
tlg_authors_df %>%
  ggplot(aes(code, fct_reorder(name, desc(name))))  +
  geom_point() +
  labs(title = "Identifiants TLG et noms",  x = "code", y = "name")
```

Ce premier graphique présente un premier problème : les données sont très nombreuses, si bien que les résultats sont peu clairs. On observe néanmoins que la majorité des codes se trouvent entre 0 et 2500, et la grande majorité entre 0 et 5000. On pourrait donc se concentrer sur cette portion, et masquer les noms de sorte à ce que le graphique puisse davantage s'étaler.

```{r tlg-code-name-0-5000}
tlg_authors_df %>%
  filter(code < 5000) %>%
 ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants TLG et noms (0-5000)", x = "code", y = "name") +
  scale_x_continuous(breaks = round(seq(0, 5000, by = 200),1)) +
  theme(
    axis.text.y = element_blank(),
    axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1),
    panel.grid.major.x = element_line(size = 0.5, color = "grey")
  )
```

On observe assez clairement des lignes droites. Cela ressemble à des séries cohérentes de noms classés par ordre alphabétique sur certaines portions. Il faudrait donc découper les codes TLG en plusieurs séquences successives pour en analyser la logique interne.

On observe notamment que les droites qui apparaissent se situent avant le code 1800 : il semblerait donc que les codes ultérieurs obéissent à une autre logique que la logique alphabétique, alors qu'avant 1800 il y aurait pu avoir des "ajouts par vagues successives" à la liste des identifiants, chaque vague étant par ordre alphabétique.

Intéressons-nous plus en détail à la séquence avant 1800.

```{r}
# Première tentative de créer un vecteur à partir des codes,
# pour les diviser en plusieurs séquences,
# et en tirer des informations plus facilement.
#code_authors_tlg <-
#  as_tibble(tlg_authors_df) %>%
#  slice(code) %>%
#  unlist(., use.names = FALSE)
#split(code_authors_tlg, 1:2545)

tlg_authors_df %>%
  filter(code < 1800) %>%
  ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants TLG et noms (0-1800)", x = "code", y = "name") +
  scale_x_continuous(breaks = round(seq(0, 1800, by = 100),1)) +
  theme(
    axis.text.y = element_blank(),
    axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1),
    panel.grid.major.x = element_line(size = 0.5, color = "grey")
  )


  labs(title = "Identifiants TLG et noms (0-5000)")

```

On observe :

- Une séquence évidente de ~1100 à ~1800. Elle va de presque le début de l'alphabet, à la fin de l'alphabet ;
- Deux séquences, de ~390 à ~520, et de ~750 à ~1120, qui s'étendent tout le long de l'alphabet ;
- Une séquence de ~100 à ~200 qui s'arrête vers le milieu de l'alphabet ;
- Une petite séquence concentrée au début de l'alphabet entre ~650 et ~750. Dans l'alphabet (en ordonnées), elle semble s'arrêter proche de la valeur où la longue traînée de ~1100 à ~1800 commence.

De plus, on remarque plusieurs éléments :

- Même sur cette portion, il y a plusieurs séquences d'identifiants qui paraissent ne pas suivre la logique alphabétique (en particulier entre 0 et 100, entre 200 et 400, entre 520 et 650). Ces séquences pourraient suivre une autre logique, ou bien ne correspondre à rien d'identifiable facilement – il pourrait s'agir d'une attribution "au hasard", ou correspondre à une entrée des identifiants "au fil de l'eau" sans logique systématique pré-établie, par exemple au fur et à mesure que de nouveaux auteurs enrichissaient le corpus TLG.

- Même sur les séquences où l'ordre alphabétique paraît significatif, il y a parfois quelques "points aberrants", éloignés de la droite qui se dessine : ils semblent ne pas suivre la logique de la séquence d'identifiants dans laquelle ils s'insèrent. Le plus vraisemblable, c'est alors que le nom que nous avons dans nos données ne corresponde pas au nom qui a été utilisé pour attribuer l'identifiant – ou alors, lorsque le nom est composé de plusieurs termes, que celui positionné en premier dans nos données ne soit pas celui qui ait servi pour l'indexation alphabétique de l'auteur, comme dans le cas d'un prénom suivi d'un patronyme.

- Enfin, on remarque un aspect qui pouvait déjà être aisément constaté auparavant : il existe des "identifiants" manquants, auxquels aucun auteur ne correspond. Ce phénomène semble apparaître également au sein même des séries alphabétiques. Par exemple :

```{r}
tlg_authors_df %>% filter(code >= 840 & code <= 850)
```

On observe ici qu'entre les identifiants 840 et 850, on ne trouve en fait que deux identifiants : le 845 et le 848. Les identifiants 840, 841, 842, 843, 844, 846, 847, 849 et 850 sont "manquants".

Ce dernier phénomène ne paraît pas évident à expliquer. Nous voyons plusieurs hypothèses qui peuvent être complémentaires. Il pourrait s'agir de séquences programmées, la plage leur étant alors réservée, mais finalement non réalisées, ou réalisées uniquement partiellement, par exemple du fait de corpus non prêts dans les temps. Si les sauts existaient au moment même de l'attribution, il se pourrait autrement qu'ils relèvent d'erreurs ou d'ajouts intempestifs au sein d'une série plus longue. On pourrait sinon imaginer que ces "sauts" pourraient aussi être le résultat de manipulations ultérieures : les auteurs qui possédaient ces identifiants auraient été "réattribués", ou même tout simplement supprimés, pour une raison ou pour une autre. Pour autant cette hypothèse semble peu probable, dans la mesure où la modification de l'identifiant d'un corpus publié poserait des problèmes techniques de réattribution en chaîne pour son référencement.

Ces hypothèses demeurent spéculatives, dans la mesure où nous ne disposons pas de l'historique de constitution de ces bases de données. Une variable comme la date d'entrée du corpus dans la bibliothèque pourrait ici nous éclairer.

#### Auteurs latins

Passons aux auteurs latins.

```{r phi-code-name}
phi_authors_df %>%
  ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants PHI et noms",  x = "code", y = "name")
```

On voit que la grande majorité des identifiants sont inférieurs à 2500 : concentrons-nous sur cette portion.

```{r phi-code-name-0-2500}
phi_authors_df %>%
  filter(code < 2500) %>%
  ggplot(aes(code, fct_reorder(name, desc(name)))) +
  geom_point() +
  labs(title = "Identifiants PHI et noms (0-2500)", x = "code", y = "name") +
  scale_x_continuous(breaks = round(seq(0, 2500, by = 100),1)) +
  theme(
    axis.text.y = element_blank(),
    axis.text.x = element_text(angle = 90, vjust = 0.5, hjust = 1),
    panel.grid.major.x = element_line(size = 0.5, color = "grey")
  )
```

Contrairement aux auteurs grecs du TLG, les résultats paraissent cette fois beaucoup moins évidents, et la corrélation entre l'identifiant et la place du nom dans l'ordre alphabétique est un peu douteuse. Tout au plus, on pourrait penser qu'il existe une petite tendance de ~400 à ~700, voire entre ~800 et ~1050. Mais il semblerait que la classification obéisse essentiellement à d'autres logiques, que nous allons désormais tenter d'explorer.

### 2.2. Les identifiants par les dates

Après l'ordre alphabétique, une autre classification qui paraîtrait assez intuitive est la classification chronologique par dates. Nous allons donc voir dans quelle mesure les codes TLG et PHI sont explicables par l'époque des auteurs, puis nous croiserons ensuite, dans la partie suivante, la date avec d'autres variables.

---

#### Auteurs grecs

```{r tlg-code-date}
# Première étude en noir et blanc
ggplot(tlg_authors_df, aes(x = code, y = date)) +
  geom_point() +
  labs(title = "Identifiants TLG et dates")
```

À première vue, la variable "date" n'explique pas la variable "code" du TLG. Les 2600 premiers identifiants se concentrent avant 2500, et l'on constate quelques "cheminées" aux environs de 3000, 4000 et 9000 concernant surtout les auteurs d'après 500 CE.

---

#### Auteurs latins

```{r phi-code-date}
ggplot(phi_authors_df, aes(x = code, y = date)) +
  geom_point() +
  labs(title = "Identifiants PHI et dates")
```

Concernant les auteurs latins, on semble apercevoir pour le code PHI une corrélation assez forte entre la progression des identifiants et celle des dates. Un identifiant culmine à 9500 et trois autres auteurs dépassant 9000 ne sont pas datés.

```{r}
cor.test(phi_authors_df$code, phi_authors_df$date)
```

Cette corrélation entre ces deux variables, identifiant et date, paraît statistiquement vérifiée.

Regardons de plus près la séquence de 0 à 3000.

```{r}
tmp_phi_3000 <-
  phi_authors_df %>%
  filter(code < 3000)
```

```{r}
cor.test(tmp_phi_3000$code, tmp_phi_3000$date)
```

La corrélation paraît encore plus forte pour les identifiants inférieurs à 3000. Essayons de modéliser une relation linéaire.

```{r}
#' Make a linear model, print its infos and components, and plot its equivalent.
#' rq: Here we use `tibble()`, to make quosures work.
#' There may be a neater way.
#' rq: We need to explicitly return things to be printed,
#' otherwise only a table at the end of the function will be printed.
#' Thus, we then need to 'hide' chunk results to avoid printing of raw console output.
#' @see https://stackoverflow.com/questions/42024921/why-does-kable-not-print-when-used-within-a-function-in-rmarkdown
#' @param var String of the variable name to test in the linear model.
#' @param var_strin String to display in the plot name.
#' @return Things to print.
phi_display_lm <- function(var, var_str) {
  data_df <- tmp_phi_3000
  lm_df <-
    tibble(
      lm_components = broom::tidy(lm(code ~ !!sym(var), data_df)),
      lm_infos = broom::glance(lm(code ~ !!sym(var), data_df))
    )
  lm_comps_print <- lm_df %>% pull(lm_components) %>% knit_print()
  lm_infos_print <- lm_df %>% pull(lm_infos) %>% slice_head() %>% knit_print()
  lm_plot <- data_df %>%
    ggplot(aes(x = code, y = !!sym(var))) +
    geom_point() +
    geom_smooth(method = "lm") +
    scale_y_continuous(
      limits = c(-500, 600),
      breaks = seq(-500, 600, by = 100)
    ) +
    labs(title = paste0("Identifiants PHI et ",var_str))
  return(list(
    lm_comps_print,
    lm_infos_print,
    lm_plot
  ))
}
```

```{r, results = 'hide'}
phi_display_lm("date", "dates d'activité")
```

En y regardant de plus près on voit bien, sur les identifiants entre 0 et 3000, une corrélation linéaire significative sans ambiguïté ($p\mbox{-}valeur \lll 0.001$) entre la valeur de l'identifiant et la date, ou le siècle, d'activité : un simple modèle linéaire ($code_{i} = \beta_{0} + \beta_{1} \times date_{i} + \epsilon_{i}$) explique ainsi les trois quarts de la variance ($R^{2} \approx 0.76$).

Rappelons que nous avons ici utilisé une seule des trois dates qui étaient à notre disposition : voyons la manière dont se distribuent les deux autres.

```{r, results = 'hide'}
phi_display_lm("date_begin", "dates de commencement")
```

```{r, results = 'hide'}
phi_display_lm("date_end", "dates de fin")
```

À partir des seuls calculs statistiques, il ne paraît pas évident de tirer des conclusions. En revanche, du point de vue de l'analyse graphique, les dates de "fin" semblent, au moins autour de l'identifiant 500, former un carré comme si les auteurs morts au cours du premier siècle avant notre ère faisaient tous, ou presque, partie d'une même catégorie. On pourrait encore affiner les analyses de cette catégorisation, sans oublier que les données manquantes sont plus nombreuses pour les dates de "fin" ou de "début" que la date plus générale d'activité (voir la section ["Données finales"](#données-finales-obtenues)).

```{r}
remove(tmp_phi_3000)
```

### Analyses en trois dimensions

D'autres variables interviennent-elles dans la numérotation des codes ? En sus des dates, nous allons examiner trois autres variables : l'initiale du nom – en croisant donc la question de l'ordre alphabétique que nous avons déjà évoquée –, le genre littéraire, ainsi que le lieu. Ces variables seront exprimées par des couleurs.

Les couleurs par défaut de ggplot étant plutôt fades et peu différenciées, rendant la lecture difficile, nous créerons également une palette passant graduellement du rouge au bleu, en passant respectivement par l'orangé, le jaune et le vert (il faut compter près de 26 lettres).

```{r colors}
# Création d'une palette de couleurs de type rosace,
# en jouant sur les codes #RRVVBB, chaque chiffre de 0 à F.
couleurs <- c(
  "#990000", "#cc0000", "#ff0000", "#ff3300",
  "#ff6600", "#ff9900", "#ffcc00", "#ffff00",
  "#ccff00", "#99ff00", "#66ff00", "#33ff00",
  "#00ff00", "#00ff33", "#00ff66", "#00ff99",
  "#00ffbb", "#00ffff", "#00ccff", "#0099ff",
  "#0066ff", "#0033ff", "#0000ff", "#0000cc",
  "#000099"
)
```

### 2.3. Identifiants, dates et initiales

Nous reprenons les deux graphiques précédents projetant les identifiants selon les dates (TLG et PHI), en colorant cette fois les points selon les initiales des auteurs.

---

#### Auteurs grecs

```{r tlg-code-date-init}
ggplot(tlg_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants TLG, dates et initiales")
```

De longs traits verticaux de couleurs apparaissent, mais un cadrage est à réaliser, notamment pour les codes entre 1150 et 1800.

```{r tlg-code-date-init-zoom}
ggplot(tlg_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(1150, 1800) +
  ylim(-750, 500) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants TLG, dates et initiales (1150-1800)")
```

Il apparaît clairement que les numéros de code entre 1150 et 1800 suivent les initiales du noms des auteurs grecs. Le graphique suivant examine les codes entre 1800 et 2500. En revanche, la date paraît ne jouer aucune importance : on retrouve, pour chaque même date, des auteurs tout le long de la séquence d'identifiants considérée.

```{r tlg-code-date-init-zoom-2}
ggplot(tlg_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(1800, 2500) +
  ylim(-750, 500) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants TLG, dates et initiales (1800-2500)")
```

L'observation qui s'applique entre 1150 et 1800 ne se retrouve pas entre 1800 et 2500, même si l'on retrouve quelques lignes ascendantes, peut-être fortuites.

Observons désormais les autres séquences que nous avions distinguées lorsque nous avons projeté les identifiants en fonction des noms.

```{r tlg-code-date-init-seqs}
#' Plot code by date and init,
#' for a sequence between two given values,
#' from `phi_authors_df_nopr`.
#' @param start Number. Code to start with
#' @param end Number. Code to end with.
tlg_plot_code_date_init_seq <- function(start, end) {
  tlg_authors_df %>%
    filter(code >= start, code <= end) %>%
    drop_na(date, init) %>%
    ggplot(aes(x = code, y = date, color = init)) +
    geom_point() +
    #ylim(-600, 300) +
    scale_color_manual(values = couleurs) +
    labs(title = paste0("Identifiants TLG, dates et initiales (",start,"-",end,")"))
}
```

```{r}
tlg_plot_code_date_init_seq(100, 200)
tlg_plot_code_date_init_seq(390, 550)
tlg_plot_code_date_init_seq(650, 750)
tlg_plot_code_date_init_seq(750, 1100)
```

Comme nous l'avions remarqué, il existe en effet une régularité. Néanmoins, les dates ne semblent jouer aucun rôle sur ces séquences, si ce n'est que chaque séquence s'étale plus ou moins dans le temps :

- la séquence entre 100 et 200 s'étale de -400 à 250
- la séquence entre 400 et 525 s'étale de -500 à -200 (c'est particulièrement ramassé)
- la séquence entre 650 et 750 s'étale de -500 à 550
- la séquence entre 750 et 1100 s'étale de -500 à 250
- la séquence entre 1150 et 1800 s'étale de -700 à 500 (c'est particulièrement étendu)

---

#### Auteurs latins

On applique le principe des points de couleur selon l'initiale pour les auteurs latins.

```{r phi-code-date-init}
# Auteurs latins.
ggplot(phi_authors_df, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(0, 2500) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI, dates et initiales")
```

Si le code est corrélé à la date, ce qui apparaissait déjà plus haut, le nom ne semble avoir aucun rôle dans la numérotation.

Il nous avait néanmoins semblé que quelque chose comme une suite alphabétique pourrait bien apparaître au moins entre les identifiants 400 et 700. Restreignons donc l'observation plus spécifiquement à cette séquence. Étant donné que cette séquence fait apparaître des auteurs d'une période similaire – le premier siècle avant notre ère –, nous allons pour un instant revenir en deux dimensions en supprimant la variable date et ainsi mieux voir la répartition des noms.

```{r phi-code-init-400-750}
ggplot(phi_authors_df, aes(x = code, y = fct_reorder(name, desc(name)), color = init)) +
  geom_point() +
  xlim(400, 750) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI et noms (400-750)", x = "code", y = "name")
```

Une ligne paraît vaguement se distinguer, mais de très nombreux auteurs semblent ne pas entrer dans cette logique. C'est possible car le nom qui apparaît dans notre tableau n'est pas conforme au nom utilisé dans la classification.

On remarque en effet que les noms tels que nous les avons récupérés commencent souvent par le "*praenomen*". Il est facile d'ôter les prénoms représentés par une initiale suivie d'un point. On crée pour cela un tableau intermédiaire.

```{r}
phi_authors_df_nopr <- phi_authors_df
phi_authors_df_nopr$name <- gsub("[A-Z][a-z]{0,2}\\. ", "", phi_authors_df_nopr$name)
phi_authors_df_nopr$init <- substring(phi_authors_df_nopr$name,1,1)
```

Un travail plus systématique aurait consisté à observer sur le [site de PHI](https://latin.packhum.org/browse) ce qui y est considéré comme étant le nom principal de chaque auteur (apparaissant en gras) pour garder celui-ci comme nom de référence. Il aurait été possible de récupérer ces données depuis internet par exemple avec la bibliothèque `rvest`.

Pour l'heure, nous nous contenterons de cette première mise en forme.

```{r}
ggplot(phi_authors_df_nopr, aes(x = code, y = date, color = init)) +
  geom_point() +
  xlim(0, 2500) +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI, dates et initiales (sans praenomen)")
```

Il est difficile de distinguer les choses à ce niveau. De nouveau, revenons à une représentation en deux dimensions en supprimant la variable "date", puis nous nous focaliserons sur certaines séquences, chacune correspondant à une période.

```{r}
phi_authors_df_nopr %>%
  filter(code < 2500) %>%
  drop_na(name, init) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = init)) +
  geom_point() +
  scale_color_manual(values = couleurs) +
  labs(title = "Identifiants PHI et noms (sans praenomen)", x = "code", y = "name")


```

Des lignes apparaissent effectivement bien clairement ! Regardons les séquences de plus près.

```{r}
#' Plot code by name,
#' for a sequence between two given values,
#' from `phi_authors_df_nopr`.
#' @param start Number. Code to start with
#' @param end Number. Code to end with.
phi_plot_code_name_seq <- function(start, end) {
  phi_authors_df_nopr %>%
    filter(code >= start, code <= end) %>%
    drop_na(name, init) %>%
    ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = init)) +
    geom_point() +
    scale_color_manual(values = couleurs) +
    labs(
      title = paste0("Identifiants PHI et noms (sans praenomen, ",start,"-",end,")"),
      x = "code",
      y = "name"
    ) +
    theme(axis.text.y = element_blank())
}
```

```{r}
phi_plot_code_name_seq(0, 200)
phi_plot_code_name_seq(400, 750)
phi_plot_code_name_seq(750, 1200)
phi_plot_code_name_seq(1200, 1400)
```

Les tendances apparaissent bien avec clarté.

Une dernière manière de représenter ces tendances serait de colorer cette fois non plus les initiales mais les dates : on devrait observer que les différentes séquences sont chacune d'une teinte particulière.

```{r}
phi_authors_df_nopr %>%
  filter(code < 2500) %>%
  drop_na(name, date) %>%
  ggplot(aes(code, fct_reorder(name, desc(name)), color = date)) +
  geom_point() +
  labs(title = "Identifiants PHI, noms et dates", y = "name") +
  scale_color_gradientn(colors = couleurs) +
  theme(axis.text.y = element_blank())
```

C'est effectivement ce que l'on observe !

Il semblerait donc que les auteurs latins soient, dans la classification PHI, rangés d'abord par date, et ensuite de manière secondaire, sur chaque période, par ordre alphabétique du nom.

Le **nom** ne commence alors manifestement pas par le *praenomen*. Les points aberrants par rapport aux droites qui se dessinent sont vraisemblablement des auteurs pour lesquels le nom que nous avons dans notre tableau ne correspond pas au nom utilisé lors de l'attribution de l'identifiant.

Pour distinguer plus clairement les **périodes**, nous devrions faire des recherches supplémentaires, afin de savoir précisément selon quel(s) critère(s) certains auteurs sont rattachés à une période et non à la précédente ou à la suivante : s'agit-il du siècle correspondant à la date de naissance ? à la date de mort ? à la période principale de production littéraire ? Ou est-ce un découpage d'un autre ordre, selon des périodes historiques ? Il faudrait pour cela délimiter précisément les séquences – ceci fait, on pourrait s'intéresser aux auteurs situés à leurs extrémités, afin de saisir ce qui fait passer d'une séquence à une autre. La première analyse conduite dans la section ["Les identifiants par les dates"](#les-identifiants-par-les-dates) inciterait à nous pencher sur le siècle de la date de mort.

Il faut enfin noter que, comme nous l'avons déjà relevé pour les auteurs grecs (voir la section ["Les identifiants par les noms"](#les-identifiants-par-les-noms)), il existe de nouveau des "**trous**" dans les séquences ; ces "sauts" dans la numérotation demeurent difficiles à élucider avec les seules données ici à notre disposition.

### 2.4. Identifiants et genres

Pour les auteurs grecs, la logique de classification nous demeure peu claire. Si certaines séries alphabétiques apparaissent, on ne sait pas pourquoi elles apparaissent dans cet ordre-là, et il existe également des séquences entières qui semblent ne pas correspondre à l'ordre alphabétique ni à l'ordre chronologique.

Essayons donc de chercher une logique, ou des logiques, à partir des genres littéraires.

```{r}
tlg_authors_df %>%
  filter(code < 5000) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_point() +
  labs(title = "Identifiants TLG et genres littéraires", y = "genre")
```

Un premier graphique en deux dimensions ne donne pas grand-chose : à première vue, chaque genre peut se répartir tout du long de la numérotation.

Supprimons les genres contenant moins de dix auteurs pour y voir plus clair.

```{r}
tlg_authors_df %>%
  filter(code < 5000) %>%
  group_by(genre) %>%
  mutate(genre_n = n()) %>%
  ungroup() %>%
  filter(genre_n > 10) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_point() +
  labs(title = "Identifiants TLG et genres littéraires (plus de dix auteurs)", y = "genre")
```

À la rigueur, on peut relever que les orateurs sont concentrés au début de la numérotation, et les "*Poetae*" autour de 2600.

Néanmoins, on a sur ce graphique du mal à distinguer la densité des identifiants et leurs regroupements. Par exemple, on a du mal à faire la différence entre les petites masses très denses et les points uniques ou presque, et on peine à appréhender à quel point certaines lignes sont continues ou non. Ajustons les paramètres graphiques pour discerner les choses plus facilement.

```{r}
tlg_authors_df %>%
  filter(code < 5000) %>%
  group_by(genre) %>%
  mutate(genre_n = n()) %>%
  ungroup() %>%
  filter(genre_n > 10) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_jitter(alpha = 0.2, shape = 16, width = 0, height = 0.2) +
  labs(title = "Identifiants TLG et genres littéraires (plus de dix auteurs)", y = "genre")
```

Désormais, le graphique est bien plus lisible : on observe des ajouts "par grappe", en particulier pour les "*Comici*", "*Tragici*", "*Elegiaci*", et également pour les "*Geographi*", "*Lyrici/-ae*", "*Medici*", "*Oratores*", "*Poetae*", "*Rhetorici*", ...

Jetons également un œil aux genres mis de côté, à savoir ceux qui contiennent dix auteurs ou moins.

```{r}
tlg_authors_df %>%
  filter(code < 5000) %>%
  group_by(genre) %>%
  mutate(genre_n = n()) %>%
  ungroup() %>%
  filter(genre_n <= 10) %>%
  ggplot(aes(x = code, y = fct_reorder(genre, desc(genre)))) +
  geom_jitter(alpha = 0.3, shape = 16, width = 0, height = 0.1) +
  labs(title = "Identifiants TLG et genres littéraires (dix auteurs et moins)", y = "genre")
```

On observe des petits regroupements, qui ne sont pas systématiques : des "*Paradoxographi*" surtout, des "*Bucolici*" également, des "*Doxographi*", peut-être aussi des "*Mythographi*"...

Essayons désormais des analyses en trois dimensions, en couleurs.

```{r}
length(unique(tlg_authors_df$genre))
```

On trouve 52 genres (53, auquel on retire le genre "NA") dans le fichier des auteurs TLG, qu'il est difficile de représenter clairement en couleurs.
Nous gardons huit genres parmi les plus représentés. Ceci est une démarche exploratoire : l'idéal serait évidemment de produire plusieurs graphiques ; rappelons en outre, comme il est expliqué [plus haut](#variables-recherchées), que lorsque plusieurs genres s'appliquent à un auteur, nous avons gardé le premier apparaissant par ordre alphabétique.

```{r tlg-genre-stats, rows.print = 11}
count_tlg_genre <-
  tlg_authors_df %>%
  count(genre, sort = TRUE)
knit_print(count_tlg_genre[1:11,])
```

De cette liste, nous avons éliminé les "*Historici/-ae*" trop dispersés apportant de la confusion dans la lecture, et les "*Scriptores Ecclesiastici*", assez dispersés également, même s'ils n'apparaissent que tardivement.

```{r tlg-code-date-genre}
# On applique 8 genres avec une sélection de couleurs
tlg_authors_df %>%
  filter(genre %in% c(
    "Philosophici/-ae", "Comici", "Tragici", "Grammatici",
    "Epici/-ae", "Lyrici/-ae", "Rhetorici", "Medici"
  )) %>%
  ggplot(aes(x = code, y = date, color = genre)) +
  geom_point() +
  xlim(0, 2800) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, dates et genres littéraires")
```

De ce premier graphique, il apparaît que les philosophes sont dispersés, mais restent en dehors de la zone des comiques et des tragiques. Nous observons aussi un longue ligne verticale représentant les médecins. Cette observation est plus parlante si nous ne gardons plus que ces quatre derniers genres.

```{r tlg-code-date-4genres}
tlg_authors_df %>%
  filter(genre %in% c(
    "Philosophici/-ae", "Comici", "Tragici", "Medici"
  )) %>%
  ggplot(aes(x = code, y = date, color = genre)) +
  geom_point() +
  xlim(0, 2800) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs[c(1, 6, 15, 25)]) +
  labs(title = "Identifiants TLG, dates et quatre genres")
```

Il est curieux de constater que la comédie semble encadrée par la tragédie.

```{r tlg-code-date-3genres}
# Zoom sur les identifiants des comiques, médecins et tragiques.
tlg_authors_df %>%
  filter(genre %in% c("Comici", "Tragici", "Medici")) %>%
  ggplot(aes(x = code, y = date, color = genre)) +
  geom_point() +
  xlim(0, 2000) +
  ylim(-350, 600) +
  scale_color_manual(values = couleurs[c(1, 6, 25)]) +
  labs(title = "Identifiants TLG, dates et trois genres")
```

En fait, on observe que les comiques regroupés de la sorte correspondent à la séquence que nous avions relevé, entre ~390 et ~520, dans notre première analyse (voir la section ["Les identifiants par les noms"](#les-identifiants-par-les-noms)).

```{r}
tlg_authors_df %>%
  filter(genre %in% c("Comici", "Tragici", "Medici")) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 1000) +
  scale_color_manual(values = couleurs[c(1, 6, 25)]) +
  labs(title = "Identifiants TLG, noms et trois genres", y = "name")
```

On voit clairement apparaître les comiques rangés par ordre alphabétique ! Si une ligne verticale apparaît avec les tragiques, entre ~260 et ~380, voire entre ~620 et ~750 pour les médecins, ces deux catégories paraissent néanmoins ne pas être rangées par ordre alphabétique.

Tentons une dernière série de graphiques, représentant les identifiants en fonction des noms, avec les genres en couleurs.

```{r}
tmp_tlg_authors_genres <-
  tlg_authors_df %>%
  drop_na(genre) %>%
  count(genre) %>%
  arrange(desc(n)) %>%
  pull(genre)

tlg_authors_df %>%
  filter(genre %in% tmp_tlg_authors_genres[0:8]) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 5000) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, noms et genres littéraires (série 1)", y = "name") +
  theme(axis.text.y = element_blank())

tlg_authors_df %>%
  filter(genre %in% tmp_tlg_authors_genres[9:16]) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 5000) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, noms et genres littéraires (série 2)", y = "name") +
  theme(axis.text.y = element_blank())

tlg_authors_df %>%
  filter(genre %in% tmp_tlg_authors_genres[17:24]) %>%
  ggplot(aes(x = code, y = fct_reorder(name, desc(name)), color = genre)) +
  geom_point() +
  xlim(0, 5000) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, noms et genres littéraires (série 3)", y = "name") +
  theme(axis.text.y = element_blank())

remove(tmp_tlg_authors_genres)
```

Rien d'extrêmement clair ne se distingue, en sus de ce que nous avons remarqué auparavant, si ce n'est éventuellement un groupement de poètes lyriques autour de 250 (série 2), et de "*Poetae*" autour de 2600 (série 3), mais qui ne paraissent pas classés par ordre alphabétique.

Il faudrait regarder les choses plus en détail, et éventuellement modifier ou compléter nos données de départ : rappelons que pour un grand nombre d'auteurs, les genres, récupérés du CLTK, nous sont manquants. De même, les dates retenues pourraient être imprécises, ou les noms pourraient être différents de ceux retenus au moment de la classification – voire, pour être plus précis, les noms pourraient, sans être totalement différents, être indexés à une initiale distincte de la première lettre apparaissant dans le nom dont nous disposons.

### 2.5. Identifiants et lieux

Pour la classification PHI, l'essentiel paraît expliqué – il ne resterait qu'à déterminer plus précisément les frontières des périodes considérées, ainsi que les noms utilisés, et éventuellement, la raison des "trous" dans la numérotation.

Il ne nous reste plus qu'à essayer d'expliquer, pour la classification TLG, d'une part l'ordre des séquences, d'autre part certaines séquences particulières, dont pour certaines aucune logique claire n'est apparue jusque-là. Pour l'ordre des séquences entre elles, la logique paraît difficile à élucider par la confrontation des variables à notre disposition. Pour ce qui est des portions inexpliquées, intéressons-nous en particulier aux identifiants au-delà de 1800, qui ne suivaient vraisemblablement pas la logique alphabétique.

Tentons donc d'observer si les lieux pourraient jouer un rôle dans l'attribution des identifiants numérotés à partir de 1800.

```{r}
tlg_authors_df %>%
  filter(code > 1800 & code < 5000) %>%
  drop_na(place) %>%
  ggplot(aes(x = code, y = fct_reorder(place, desc(place)), color = place)) +
  geom_point() +
  scale_color_manual(values = c(couleurs, "#000000", "#000000")) +
  labs(title = "Identifiants TLG et lieux (1800-5000)", y = "place")
```

Rien d'évident ne se dégage de ce premier graphique : un même lieu se répartit souvent tout au long de la numérotation. Essayons de croiser avec les dates pour distinguer des tendances.

Comme la colonne "`place`" contient 47 lieux différents, cela ne sera pas lisible si nous attribuons une couleur à chacun d'eux. Nous allons déterminer les lieux qui apparaissent le plus fréquemment, pour les codes 1800 et plus.

```{r tlg-place-codes-plus-1800-stats, rows.print = 11}
count_tlg_place <-
  tlg_authors_df %>%
  filter(code > 1800) %>%
  count(place, sort = TRUE)
knit_print(count_tlg_place[1:11,])
```

Comme nous l'avons fait pour les genres, nous gardons les 8 pays pour lesquels nous observons le plus d'occurrences (ici, au moins 7 occurrences, en choisissant arbitrairement Chypre plutôt que la Libye qui sont *ex aequo*).

```{r tlg-code-date-lieu-plus-1800-8-pays}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy",
    "Syria", "Israel", "Palestine", "Cyprus"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(1800, 5000) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, dates et lieux (1800-5000)")
```

On observe plusieurs lignes verticales représentant des auteurs de Turquie : l'une vers le code 2750, concerne des auteurs d'environ 1200 à environ 1400; l'autre dans les codes 3000 concerne des auteurs de 800 à 1500 ; il semble également y avoir des lignes concernant des auteurs d'Égypte. Comme il est difficile de lire ce graphique, nous éliminons les lieux pour lesquels nous constatons moins de 30 occurrences, et nous allons diviser les graphiques en *tranches* de codes, à partir des observations du tableau en deux dimensions "Identifiants TLG et noms (0-5000)", figurant dans la section ["Les identifiants par les noms"](#les-identifiants-par-les-noms). On y voyait des concentrations de points qui ne formaient pas de lignes, pour les codes 1800 à 3000 et 4000 à 4400.

```{r tlg-code-date-lieu-plus-1800-5-pays}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(1800, 3000) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (1800-3000)")
```

Il semblerait que plusieurs lignes se dessinent de manière éparse. De nouveaux zooms sont nécessaires.

```{r tlg-code-date-5-lieux-1800-3000}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(1800, 2100) +
  ylim(-350, 750) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (1800-2100)")
```

Quelques débuts de lignes apparaissent vers 1950, mais il est difficile d'établir une corrélation entre codes et lieux. La ligne rouge horizontale apparaissant est probablement davantage liée à la date qu'au lieu : lieux et périodes de production d'écrits grecs sont souvent liés.

```{r tlg-code-date-5-lieux-2100-2300}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(2100, 2300) +
  ylim(-350, 750) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (2100-2300)")
```

Nous constatons des agrégats de points de même couleur, mais il est difficile d'en tirer des conclusions, d'autant plus qu'il manque beaucoup de lieux dont les points de couleurs auraient apporté davantage de bruit.

```{r tlg-code-date-5-lieux-2700-3300}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(2700, 3300) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (2700-3300)")
```

Cette portion a pour caractéristique de concerner presque exclusivement la Turquie, du moins pour les zones retenues.

```{r tlg-code-date-8-lieux-2700-3300}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy",
    "Syria", "Israel", "Palestine", "Cyprus"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(2700, 3300) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 4, 6, 9, 11, 15, 20, 25)]) +
  labs(title = "Identifiants TLG, dates et 8 lieux (2700-3300)")
```

Cela semble se confirmer lorsque nous élargissons cette observation aux huit pays les plus importants de la tranche 1800 et plus. Cependant, une recherche élargie à tous les lieux permettrait peut-être d'apporter une conclusion. Malheureusement, elle est impossible avec la pléthore des 52 couleurs, surtout que ggpplot les détermine selon l'ordre alphabétique et non selon la proximité géographique.

```{r tlg-code-date-5-lieux-4000-4400}
tlg_authors_df %>%
  filter(place %in% c(
    "Turkey", "Greece", "Egypt", "Italy", "Syria"
  )) %>%
  ggplot(aes(x = code, y = date, color = place)) +
  geom_point() +
  xlim(4000, 4400) +
  ylim(-350, 1600) +
  scale_color_manual(values = couleurs[c(1, 7, 13, 19, 25)]) +
  labs(title = "Identifiants TLG, dates et 5 lieux (4000-4400)")
```

Rien de significatif ne semble émerger de cette tranche.

Rien de très conclusif n'apparaît de cette recherche sur les lieux des auteurs en rapport avec le code TLG au delà de 1800.

## Conclusion

Après cette exploration, nous pouvons conclure plusieurs choses – conclusions qui pourraient être précisées et enrichies à de nombreux égards.

### Synthèse des résultats

Comme nous l'avions pressenti devant le caractère non-évident de la numérotation, nous avons établi que l'attribution des identifiants ne recouvre par une logique uniforme, mais obéit à une pluralités de facteurs. À cet égard, l'emploi d'analyses graphiques s'est révélé particulièrement fécond. Nous avons de plus pu établir l'existence de séquences spécifiques, possédant parfois chacune une logique propre.

**Dans le cas du code PHI** des textes latins du projet *Perseus*, un premier découpage est **chronologique**, le code étant proportionnel aux dates de chaque auteur, et le second, au sein de chaque période ainsi définie, est **alphabétique**. Le détail des dates retenues pour la classification, ainsi que du terme sur lequel se fonde la classification alphabétique, pourrait être affiné – du moins avons-nous établi que l'indexation alphabétique ne s'appuyait pas sur le *praenomen*. Ces deux logiques semblent recouvrir de manière homogène l'ensemble de la numérotation, les points aberrants appelant à être étudiés au cas par cas, par exemple pour vérifier le nom employé.

**Les identifiants du *Thesaurus Linguae Graecae***, plus nombreux, suivent des règles davantage complexes. On y aperçoit plusieurs séquences, pour certaines desquelles nous sommes parvenus à restituer la logique. Nous avons ainsi discerné quatre séquences ordonnées par ordre alphabétique, dont l'une correspond aux auteurs comiques. D'autres regroupements se font également par genre littéraire, par exemple pour les auteurs tragiques ou les médecins, avec un classement interne ne suivant pas l'ordre alphabétique. D'autres partie de la numérotation nous sont en revanche restées obscures. Nos analyses exploratoires n'ont notamment pas permis de discerner de classification par lieu.

### Pistes pour exploration ultérieure

Nous sommes ainsi parvenus à défricher le terrain et à établir certaines lignes de force guidant la numérotation des identifiants classiques considérés. Les explications au demeurant peuvent encore être précisées. Le présent travail pourrait ainsi aisément être complété, en partant des données mises au propres que nous avons établies, y adjoignant des variables ou en raffinant celles existantes, et en employant des méthodes d'analyse similaires, éventuellement éclairé par des saillies plus individuelles sur les tableaux et leurs éléments. De nombreuses pistes se sont en effet présentées à nous, sans qu'il nous ait été possible de tout à fait les explorer dans le temps qui nous était imparti.

#### Raffinement des variables existantes

Comme nous l'avons fait remarquer au cours de notre étude, plusieurs des variables que nous avons employé présentent des aspérités qu'il serait possible d'arrondir.

Pour ce qui est des **noms**, nous avons vu que le terme employé pour l'indexation alphabétique était d'importance : récupérer plus proprement les noms de références des auteurs latins aurait vraisemblablement permis d'affermir les résultats. Il en va de même pour les auteurs grecs : un problème similaire pourrait expliquer certains des points aberrants que l'on a pu retrouver dans les graphiques concernés.

Pour les **dates**, il aurait également été possible de mener des analyses complémentaires, en particulier pour clarifier précisément le découpage de la classification PHI, avec les données établies ou des données supplémentaires, pour déterminer exactement si le découpage se faisait en fonction de la date de naissance, la date de mort, ou d'une autre date qui pourrait par exemple correspondre à celle d'une œuvre particulière.

En ce qui concerne les **genres**, les données auraient pu être complétées : pour les auteurs grecs notamment, il aurait été possible de récupérer l'information directement depuis la variable "nom", en sus des données du CLTK. Rappelons également que nous avons retenu arbitrairement un seul genre lorsqu'à un identifiant y correspondait plusieurs – il aurait été possible de dupliquer les lignes concernées pour faire apparaître l'identifiant à chaque endroit de ces genre multiples, et le cas échéant de déterminer à quel genre l'auteur était indexé pour déterminer son identifiant.

Pour les **lieux**, nous ne nous sommes penchés que sur ceux qui comportaient le plus d'occurrences pour les tranches d'identifiants étudiées. Nous aurions pu grouper les lieux par régions géographiques ou au contraire prendre en compte les villes lorsqu'elles étaient précisées et placer les identifiants en dégradés de couleurs sur une carte géographique. De même, nous rappelons que nous n'avons arbitrairement retenu qu'un seul lieu lorsque plusieurs figuraient pour un auteur unique.

#### Adjonction de variables connexes

Les caractéristiques sur lesquelles nous avons fondé nos analyses sont propres aux auteurs considérés – la date de mort par exemple est bien propre à l'auteur en tant que personne. Néanmoins, ce biais pourrait ne pas correspondre tout à fait à la construction des corpus étudiés : il semblerait qu'un identifiant soit parfois attribué à un sous-ensemble d'œuvres particulier, comme nous l'avons relevé pour les correspondances éspitolaires. Il se pourrait alors que les identifiants dépendent de traits propres à ces **œuvres** – par exemple, le nombre d'œuvres associées à cet identifiant, ou leur longueur. La constitution d'une base de données connexes comprenant les œuvres répertoriées pourrait à cet égard se montrer utile.

Un autre trait fondamental pour un classiciste, pouvant alors entrer en ligne de compte, serait celui de la **canonicité**. En effet, certains auteurs considérés comme canons apparaissent dans la tradition comme plus importants que d'autres. Les équipes ayant pris en charge la numérisation des œuvres du TLG et du catalogue Perseus ont pu ainsi procéder en priorité à l'inventaire des auteurs jugés les plus importants, apparaissant alors vraisemblablement au début de la classification. Si cette dimension n'est pas aisément formalisable ou quantifiable, elle est à considérer, et un œil connaisseur de la tradition pourrait la discerner sur les premières centaines d'identifiants du TLG notamment – les corpus canons étant souvent ceux les mieux conservés, fréquemment étudiés dans le cadre scolaire, à la postérité culturellement importante, plus souvent d'époque classique, ou compilant de précieux fragments d'œuvres perdues.

Croisant ces deux dimensions, la question de **manuscrits** pourrait également importer. En effet, tous les ouvrages numérisés dans le TLG ou Perseus naissent d'une tradition, directe ou indirecte. Pour une même œuvre, il peut donc y avoir plusieurs manuscrits. Peut-être ces manuscrits similaires mais différents ont-ils donné lieu à des schémas d'attributions d'identifiants spécifiques, ou peut-être certains pans de la numérotation dépendent de cette logique propre aux sources, pouvant par exemple regrouper des textes provenant d'un même recueil de fragments, d'autant plus pour les corpus vraisemblablement très lacunaires désignés par certains identifiants. La prise en compte de la taille de chaque corpus pourrait alors à cet égard être éclairante.

#### Méthodologies complémentaires

##### Pistes ethnographiques

Ces dernières remarques nous renvoient à l'histoire de la constitution des corpus, et plus spécifiquement des bases de données que sont le TLG et *Perseus*. Ces plateformes ont connu différentes phases de développement, vraisemblablement soumis au gré des financements, des campagnes de numérisation, des priorités du moment, ce qui influence certainement la numérotation des auteurs, et pourrait en particulier expliquer les différentes séquences que nous avons aperçues pour le TLG. Tous les auteurs, toutes les œuvres n'ont pas été numérisées en une seule fois. Le TLG en donne d'ailleurs un aperçu sur la page d'accueil de son site internet de l'évolution des documents numérisés. Les ajouts successifs sont très réguliers, appellant à chaque fois attribution d'une nouvel identifiant.

Des matériaux ethnographiques, comme des archives et des témoignages, plus proche de méthodes classiques d'investigation historique, apporteraient à cet endroit des éclairages utiles quant à l'histoire de la constitution de ces classifications. À cet égard, certaines sources bibliographiques pourraient vraisemblablement compléter l'analyse. On pourrait notamment se référer à Berkowitz Luci, "Ancilla to the Thesaurus Linguae Graecae : The TLG Canon" (*in* Jon Solomon (éd.), *Accessing Antiquity. The Computerization of Classical Studies* (p. 34-61), University of Arizona Press, Tucson, 1993), chapitre d'ouvrage donnant des précisions intéressantes quant au rôle qu'a joué l’*American Philological Association*, un de ses comités ayant sélectionné les textes à inclure dans le *Thesaurus Linguae Graecae*.

##### Pistes informatiques

En restant dans l'analyse numérique, il existe également des pistes et méthodes que nous n'avons pas explorées.

Notamment, les identifiants pourraient être par endroit être composés de plusieurs facteurs, justapoxé pour donner le nombre qui sert d'identifiant. Par exemple, les deux premiers chiffres pourraient correspondre à une variable, et les deux suivants à une autre – ces deux chiffres seraient ensuite adjoints pour donner un identifiant à quatre chiffres. Cette hypothèse, encore à explorer, pourrait contribuer à expliquer les sauts de numérotation, voire les séquences jusque là incomprises.

Nous nous sommes de plus limités, sur le plan de l'analyse statistique, principalement à des graphiques en deux ou trois dimensions. Il aurait par exemple été possible, pour faire apparaître sur une seule image une multiplicité de variables et n'en rien rater, de réalisation par exemple des analyses par correspondances multiples (ACP).

## Annexes

### Explorations subsidiaires

Nous consignons ici quelques analyses supplémentaires, non peaufinées et non intégrées à notre démonstration. Nous ne les commenterons pas mais les laissons à la curiosité du lecteur.

*Récupération des hononymes*
```{r}
#' Get hononyms.
#' @param df Dataframe of authors.
#' @return Dataframe of authors who have hononyms.
get_homonyms_df <- function(df) {
  res_df <-
    df %>%
    count(name, name = "name_n") %>%
    filter(name_n > 1) %>%
    inner_join(df, by = "name") %>%
    relocate(name, name_n, .after = init)
  return(res_df)
}
get_homonyms_df(tlg_authors_df)
# We can observe 217 hononyms in `tlg_authors_df`.
# Aeschylus (5th BCE) appears both with code 85 and 885.
# Xenophon (4th BCE) appears both with code 32 and 1754.
get_homonyms_df(phi_authors_df)
# We can observe 12 honomnyms in `phi_authors_df` (those last are only n/a).
```

*Explorations subsidiaires des données*
```{r}
tlg_authors_df %>% filter(str_detect(name, "(?i)epistul"))
tlg_authors_df %>% filter(str_detect(name, "(?i)anonym"))
tlg_authors_df %>% filter(str_detect(name, "(?i)paradox"))
```

*Analyse de correspondances principales*
```{r}
pacman::p_load(FactoMineR, dummy)

# TODO: Code `init` into one numeric variable, from 1 to 26.

#' Format an authors dataframe
#' so it can be send to the `PCA()` function.
#' @param df Dataframe to format.
#' @param genre Boolean indicating if "genre" is present in the df.
format_to_pca_df <- function(df, genre = TRUE) {
  res_df <-
    df %>%
    # Drop useless variables and NA
    select(-name, -date_active, -date_active_str, -date_begin_str, -date_end_str) %>%
    drop_na() %>%
    # Dichotomize qualitative variables,
    # to transform them into quantitative ones.
    # It is inspired by the method used in logistic regression.
    mutate(dummy(tibble(place))) %>%
    mutate(dummy(tibble(init))) %>%
    select(-init, -place)
  if (genre) {
    res_df <- res_df %>% 
      mutate(dummy(tibble(genre))) %>%
      select(-genre)
  }
  res_df <- res_df %>%
    mutate_all(as.numeric)
  return(res_df)
}

phi_pca_df <- format_to_pca_df(phi_authors_df, genre = FALSE)
phi_pca <- PCA(phi_pca_df)

tlg_pca_df <- format_to_pca_df(tlg_authors_df)
tlg_pca <- PCA(tlg_pca_df)

# A correlation between `code` and `date` seems to appear.
# Those are the variables that differenciate the most individuals.
# Initials seem to have no correlation with those two,
# and to characterize the most the second dimension.
```

### Code de démonstration

*Sélection dans un tableau*
```{r, demo-select, eval = FALSE}
tmp <-
  tlg_authors_df %>%
  # Select columns
  select(name, code, date_active) %>%
  # Drop missing values
  drop_na(date_active)
```

*Notice de spécifications techniques, pour expliciter l'environnement de développement utilisé*
```{r}
#' A list of loaded packages, with their respective versions.
#' @return str
packages_str <- function() {
  packages <- pacman::p_loaded() %>% sort()
  package_str_v <- packages %>%
    map(~ paste0("- ",.," v",pacman::p_version(.)))
  str <- paste(package_str_v, collapse = "\n")
  return(str)
}

#' A technical notice
#' @details Display:
#'   - exact date of document generation
#'   - OS used
#'   - R version used
#'   - Packages loaded with their version  
#' Use in the text body of the `.rmd` document
#' with `r technical_notice_str()`.
#' @return str
technical_notice_str <- function() {
  return(paste0(
"Le présent document a été généré le ",format(Sys.time(), "%d %b %Y à %X")," sous ",str_to_title(.Platform$OS.type)," avec les ressources suivantes :

- ",R.version.string,"

*Bibliothèques externes*

",packages_str()
  ))
}
```

### Module d'exportation

```{r export}
write_csv(phi_authors_df, here("projet_final/output/phi_authors_df.csv"))
write_csv(tlg_authors_df, here("projet_final/output/tlg_authors_df.csv"))
```

### Références

#### Ressources externes

- **Perseus Project**, "Authors-Abbreviation-Editions", Tableur en ligne ([lien](https://docs.google.com/spreadsheets/d/1RHN6KBulDGbpKATLU6PtwU4o5xVsaBB6xbQRtKjMyWE/edit)).

- **Classical Langage ToolKit**, "Author-Epithet", Fichier .json ([lien](https://github.com/cltk/cltk/blob/master/cltk/corpus/greek/tlg/author_epithet.json)).

- **Internet** et ses innombrables ressources pour apprendre et répondre aux problèmes techniques rencontrés.

#### Environnement de développement

`r technical_notice_str()`

### Historique des versions

#### v1.4-tristan.1

- Corrections et ajustements divers
  - Corrections dans les formulations
  - Réécritures partielles notamment dans l'introduction et la conclusion
  - Considérations de mise en page
  - Expliciation du code de la notice technique
  - Remplacement de `colour` par `color` pour homogénéiser l'orthographe, en faveur de la plus courte
- Ajouts divers
  - Explicitation supplémentaire quant au principe d'un tableau de données
  - Création d'une section "Analyse subsidiaire" et intégration d'une tentative d'ACP
  - Ajout de tests de corrélation (identifiant et date, `cor.test()`)
  - Ajout d'une fonction pour ajuster l'affichage des vecteurs (`print_vector()`)

#### v1.3 (2021-02-09T18:30)

- Fusion des versions v1.3-florence, v1.3-nadine.2 et v1.3-tristan.

#### v1.3-tristan (2021-02-09T18:20)

- Ajout de fonctions d'exploration (section "Code de démonstration")

#### v1.3-nadine.2 (2021-02-09T12:51)

- Correction de liens internes

#### v1.3-nadine.1 (2021-02-07T14:40)

- Précisions sur les lieux et les noms d'auteurs dans "1. Formatage des données > Variables recherchées"
- Correction de deux graphiques oubliés (ordre alphabétique)
- Ajout d'un petit paragraphe sur les lieux dans "Conclusions > Les limites de notre méthode"

#### v1.3-florence (2021-02-08T12:33)

- Ajouts de précision à la suite des commentaires d'Aurélien Berra
- Relecture orthographique et grammaticale

#### v1.2 (2021-02-06T17:40)

- Fusion des versions v1.2-nadine.4 et v1.2-tristan, qui consistent en un début de prise en compte des commentaires d'Aurélien Berra

#### v1.2-tristan (2021-02-06T15:20)

- Analyses complémentaires
  - Ajout de deux graphiques quant aux premières analyses sur les genres
  - Ajout d'analyses par modèles linéaires pour préciser la corrélation entre identifiants et dates chez les latins
- Changements mineurs
  - Clarification de la mesure des valeurs manquantes (`na_p` renommée `na_rate` et arrondie)
  - Précision sur la liste des équivalents à des valeurs manquantes
  - Précision sur les balises BCE/CE comme facteur commun
  - Correction manuelle pour TLG#0237 (Anacréon)
  - Corrections mineures

#### v1.2-nadine.4 (2021-02-06T17:13)

- Corrections et suppression de certains commentaires sur les genres

#### v1.2-nadine.3 (2021-02-06T01:39)

- Commentaires et corrections

#### v1.2-nadine.2 (2021-02-05T17:00)

- Réintégration des modifications de la v1.1 (la v1.0 avait été prise comme origine de la v1.2-nadine.1)

#### v1.2-nadine.1 (2021-02-04T22:43)

- Mise en ordre alphabétique dans le sens de la lecture (bas en haut) sur les graphiques, et corrections des interprétations en ce sens

#### v1.1 (2021-01-11T13:00)

- Précisions et corrections dans l'introduction et la conclusion
- Rendu en carnet (*notebook*), avec table des matières flottante

#### v1.0 (2021-01-11T01:29)

- Intégration de l'introduction et de la conclusion
- Dernières vérifications des commentaires
- Vérifications typographiques

#### v0.14 (2021-01-10T22:50)

- Ajout d'un emplacement pour la section "conclusion"
- Suppression des éléments inutiles
- Précisions à la fin de la section "démarche"
- Précisions à la fin de la section "identifiants, dates et initiales" pour les latins
- Précisions et ajouts au début et à la fin de la section "genres"
- Précisions au début de la section "lieux"
- Améliorations mineures

#### v0.13 (2021-01-10T14:00)

- Corrections orthographiques
- Ajout d'une analyse par lieux

#### v0.12 (2021-01-09T22:50)

- Rédaction de la section "[Démarche adoptée](#démarche-adoptée)"

#### v0.11 (2021-01-09T19:45)

- Améliorations (pleins !)

#### v0.10 (2021-01-09T13:40)

- Réintégration des versions intermédiaires de Nadine et Florence

Nom original | Version correspondante
--- | ---
v0.5 (modifiée) / v0.6 | v0.6
v0.5nad | v0.7
v0.5Nad-7janv | v0.8
v0.5Nad-8janv | v0.9

- Analyses graphiques
  - En deux dimensions : code et nom, code et date
  - En trois dimensions : code, date, genre
- Nouveau tableau pour les latins en retirant les prénoms
- Amélioration de la structure
- Améliorations mineures par endroits
- Rédaction partielle d'explications plus générales
- Les balises "@!" indiquent que l'élément associé demande vérification voire suppression

#### v0.5 (2021-01-05T20:20)

- Correction d'une erreur : les lignes n'étaient pas dégroupées après formatage des dates
- Adjonction des genres
- Déplacement de la colonne des codes au début pour clarté
- Possibles autres changements mineurs

#### v0.4 (2021-01-05T16:40)

- Formatage des lieux
- Présentation convenable des variables conservées depuis le tableur *Perseus*
- Corrections mineures diverses

#### v0.3 (2021-01-05T12:10)

- Correction d'une erreur dans la récupération des codes
(pour bien récupérer les auteurs dont le code est inférieur à 1000)
- Utilisation de la moyenne plutôt que de la valeur de gauche,
quand la date donnée est un intervalle (pour la transformer en nombre)
- Changements anecdotiques
  - Ajout en annexes de codes de démonstration
  - Ajout en annexes d'un module d'exportation
  - Ajout en annexes de la liste des dépendances, générée dynamiquement
  - Ajout d'une section sur les possibles erreurs dans les dates des données récupérées
- Changements mineurs
  - À l'intérieur de `convert_dates()`, renommage de `is_before` en `is_bce`
  - Suppression des valeurs manquantes pour la colonne `code`.
  - Corrections d'erreurs orthographiques dans la documentation

#### v0.2 (2020-12-31T15:40)

- Complétion du formatage des dates
- Ajout de remarques sur les dates et la bibliothèque `lubridate`
- Correction d'erreurs ponctuelles dans les données

#### v0.1 (2020-12-31T12:50)

- Structure générale du document
- Configuration du fichier RMarkdown
- Extraction de la liste des auteurs depuis le tableur du *Projet Perseus*
- Début de formatage des dates
